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内 容 简 介 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 . 它 提供 了 有 
弹性 的 、 互 动 的 环境 来 分 析 、 可 视 及 展示 数据 ， 它 提供 了 若干 统计 
程序 包 ， 以 及 一 些 集成 的 统计 工具 和 各 种 数学 计算 、 统 计 计 算 的 函 
数 ， 用 户 只 需 根 据 统 计 模 型 ， 指 定 相应 的 数据 库 及 相关 的 参数 ， 便 
可 灵活 机 动 的 进行 数据 分 析 等 工作 , 其 至 创造 出 符合 需要 的 新 的 统 
计 计 算 方 法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 
存 取 , 到 计算 结果 的 分 享 ，R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 
助 你 更 好 地 分 析 和 人 解决 问题 ， 通 过 及 软件 的 许多 内 骸 统 计 函 数 ， 
用 户 可 以 很 容易 学 习 和 掌握 R 软件 的 语法 ， 也 可 以 编制 自己 的 函 
数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工作 . 

本 书 既 深入 浅 出 、 通 俗 易 懂 ， 又 从 数理 统计 的 角度 对 R 软件 
进行 科学 、 准 确 和 全 面 的 介绍 ， 不 仅 介 绍 其 基本 用 法 ， 而 且 简 要 介 
绍 一 些 必须 的 专业 知识 青 景 , 以 便 使 读者 能 深刻 理解 该 软件 的 精髓 
和 灵活 、 高 级 的 使 用 技巧 ， 此 外 ， 我 们 还 将 介绍 在 工程 技术 、 经 济 
管理 、 社 会 生活 等 各 方面 的 丰富 的 统计 间 题 及 其 统计 建 模 方法 , 通 
过 该 软件 其 问题 进行 求解 ,使 读者 获得 从 实际 问题 建 模 入 手 、 到 利 
用 软件 进行 求解 ， 以 及 对 计算 结果 进行 分 析 的 全 面 训 练 . 

本 教材 以 统计 理论 为 基础 ， 按 照 数理 统计 教材 的 章节 顺序 ,在 
讲 明 统计 的 基本 概念 的 同时 ， 以 R 软件 为 辅助 计算 手段 ， 重 点 介 
绍 统计 计算 的 方法 ， 从 而 有 效 地 解决 统计 中 的 计算 问题 . 

本 书 可 作为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 数 理 统计 课程 
的 辅导 教材 或 教学 参考 书 ， 也 作为 统计 计算 课程 的 教材 ， 和 数学 建 
模 竞 赛 的 辅导 教材 . 
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本 书 力求 将 实用 统计 方法 的 介绍 与 在 计算 机 上 如 何 R 软件 实现 这 些 方法 紧 
密 地 联系 起 来 ， 不 仅 介 绍 各 种 上 数理 统计 方法 的 统计 思想 、 实 际 背景 、 统 计 模 型 
和 计算 方法 ， 并 且 结 合 R 软件 ， 给 出 相应 的 解决 问题 的 步骤 和 对 计算 结果 进行 
分 析 . 

关于 数理 统计 的 教材 或 教科 书 已 非常 多 , 这 类 教材 主要 是 以 数理 统计 的 理论 
为 基础 ， 讲 清 其 理论 、 方 法 与 应 用 背景 ,但 对 于 计算 ， 讲 的 较 少 ， 基 本 是 以 手工 
计算 为 主 ， 目 的 是 为 了 帮助 读者 理解 相应 的 统计 方法 ， 可 操作 性 不 强 . 

关于 统计 计算 的 书 也 有 不 少 ， 目 前 ， 统 计 计 算 的 教材 一 般 是 讲 算法 (这 一 点 
与 数值 分 析 或 计算 方法 差不多 )， 而 没有 相应 的 软件 做 支撑 ， 有 些 内 容 是 数值 分 
析 内 容 的 重复 ， 统 计 味 不 足 . 

结合 软件 讲 统计 的 书 ， 目 前 最 多 的 是 结合 SAS 软件 、 SPSS 软件 . 这 类 书 
籍 基本 上 相当 于 软件 使 用 说 明 书 ， 虽 然 谈 到 一 些 统计 概念 ， 但 讲 的 很 少 . 

本 书 既 不 是 单纯 的 一 本 关于 数理 统计 或 统计 计算 的 教科 书 , 也 不 只 是 一 本 关 
于 R 软件 的 使 用 手册 ， 而 是 一 本 将 两 者 相 结 合 的 教科 书 ， 本 书 的 特点 是 结合 RR 
软件 来 讲 数 理 统计 的 基本 概论 与 计算 方法 . 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 . 它 提供 了 有 弹性 的 、 互 动 
的 环境 来 分 析 、 可 视 及 展示 数据 ; 它 提 供 了 者 干 统计 程序 包 ， 以 及 一 些 集成 的 统 
计 工 具 和 各 种 数学 计算 、 统 计 计 算 的 函数 ， 用 户 只 需 根据 统计 模型 ， 指 定 相应 的 
数据 库 及 相关 的 参数 , 便 可 灵活 机 动 的 进行 数据 分 析 等 工作 ， 甚至 创造 出 符合 需 
要 的 新 的 统计 计算 方法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 存 
取 ， 到 计算 结果 的 分 享 ， R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 助 你 更 好 地 分 
析 和 解决 问题 . 通过 R 软件 的 许多 内 骨 统 计 函 数 ， 用 户 可 以 很 容易 学 习 和 掌握 
R 软件 的 语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工 
作 . 

本 教材 的 编写 风格 是 : (1) 以 目前 常见 的 数理 统计 教材 的 内 容 为 基准 ， 首 
先 对 数理 统计 的 基本 概念 、 基 本 方法 作 一 个 简单 、 清 晰 的 介绍 ,在 注重 基础 的 同 
时 ， 侧 重 统计 思想 和 统计 方法 的 介绍 . (2) 以 R 语言 为 主 ， 编 写 相 应 的 计算 程 
序 . 这 部 分 内 容 的 目的 有 两 个 ， 第 一 是 学 习 R 软件 的 编程 方法 ， 和 掌握 R 软件 的 
基本 技巧 . 第 二 是 通过 编程 加 深 对 统计 方法 的 了 解 与 掌握 ， 同时， 还 可 以 通过 编 
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程 ， 加 深 对 R 软件 中 相关 函数 的 了 解 . (3) 介绍 相关 的 计算 函数 ， 针 对 许多 统 
计 方 法 ， R 软件 提供 了 大 量 的 内 艇 计算 函数 ， 使 用 者 只 需 输 入 数据 ， 就 可 得 到 
相应 的 结果 . 这 一 部 分 的 写作 重点 是 放 在 对 计算 结果 的 统计 和 解释， 如何 通过 结果 
来 分 析 已 有 的 数据 ， 着 重 掌握 相应 的 统计 方法 . 这 些 是 本 教材 最 主要 的 特色 ,也 
是 不 同 于 其 他 与 软件 有 关 的 教材 ， 本 书 着 重 强 调 统 计 建 模 ， 以 及 如 何 使 用 及 软 
件 得 到 其 计算 结果 和 相应 的 结果 解释 . 

本 书 的 主要 内 容 ， 第 一 章 ， 概 率 统计 的 基本 知识 . 主要 目的 是 复习 统计 的 基 
本 知识 , 便于 对 后 面 各 章 内 容 的 理解 . 第 二 章 ，R 软件 的 使 用 . 主要 介绍 R 软件 
的 基本 使 用 方法 . 第 三 章 ， 数 据 描述 性 分 析 ， 从 数据 描述 开始 分 析 数 据 ， 主 要 介 
绍 数据 的 基本 特征 ， 如 均值 、 方 差 ， 还 有 与 数据 有 关 的 各 种 图 形 ， 如 直方 图 、 散 
点 图 等 ， 第 四 章 ， 参 数 估计 . 介绍 参数 佑 计 的 基本 方法 ， 如 点 估计 和 区 间 估 计 . 
着 重 介绍 及 软件 中 与 估计 有 关 的 函数 . 第 五 章 , 假设 检验 . 介绍 假设 检验 的 基本 
方法 ,一 类 是 参数 检验 ， 男 一 类 是 非 参数 检验 ， 非 参数 检验 是 该 章 的 主要 内 容 ， 
重点 介绍 R 软件 中 与 非 参 数 检验 的 各 类 函数 和 使 用 方法 . 第 六 章 ， 回归 分 析 . 介 
绍 回归 分 析 的 基本 方法 ， 着 重 介 绍 回 归 分 析 的 过 程 与 方法 和 如 何 使 用 及 软件 作 
回归 分 析 ， 除 一 般 的 回归 方法 外 ， 还 谈 到 逐步 回归 、 非 线性 回归 的 等 内 容 . 第 七 
章 ， 方 差分 析 . 介绍 单 因素 方差 分 析 、 双 因素 方差 分 析 ， 以 及 正 交 试验 设计 与 方 
差分 析 之 间 的 关系 . 第 八 章 ， 应 用 多 元 分 析 ( 工 ). 介绍 判别 分 析 和 聚 类 分 析 ， 
这 些 内 容 与 判别 和 分 类 有 关 . 第 九 章 ， 应 用 多 元 分 析 (II ). 介绍 主 成 分 分 析 、 
主因 子 分 析 和 典型 相关 分 析 ， 它 是 应 用 多 元 分 析 中 降 维 计算 的 内 容 . 第 十 章 ， 计 
算 机 模拟 . 介绍 与 计算 机 模拟 的 Monte Carlo 方法 ， 以 及 系统 模拟 方法 ， 最 后 介 
绍 模拟 方法 在 排队 论 中 的 应 用 . 

在 学 习 本 书 的 内 容 之 后 ， 你 会 发 现 ， 尽 管 有 些 统计 内 容 其 计算 是 相当 复杂 
的 ， 但 在 使 用 R 软件 之 后 ， 这 些 问题 可 以 很 轻松 地 得 到 解决 . 

本 书 所 编写 的 R 函数 ， 以 及 所 介绍 的 R 函数 均 以 R-2.1.1 版 为 基础 (目前 
的 版 本 是 R-2.3.1, 而 且 大 约 每 3 至 4 个 月 版 本 会 更 新 一 次 ),， 而 且 全 部 程序 均 运 
行 通过 ， 读 者 如 果 需 要 作者 自 编 的 R 程序 ， 可 以 发 电子 邮件 向 作者 索取 ， 邮 件 
地 址 : ”xueyi@bjut.edu.cn. 


本 书 是 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 或 专业 人 员 为 解决 统计 计算 问 
题 而 编写 ， 可 以 作为 上 述 专业 学 生 数 理 统计 课程 的 辅导 教材 或 教学 参考 书 ， 也 作 
为 统计 计算 课程 的 教材 ， 和 数学 建 模 竞赛 的 辅导 教材 . 





| 


由 于 受 编者 水 平 所 限 ， 书 中 一 定 存 在 不 足 甚 至 错误 之 处 ， 欢 迎 读者 不 音 指 
正 ， 我 们 电子 邮件 地 址 是 xueyiQbjut.edu.cn ( 苹 谢 ); chenliping@bjut.edu.cn 


编 者 


2006 年 7 月 
于 北京 工业 大 学 


ivV 


前 


mt 


1.2 


1.3 


1.4 


言 i 
概率 统计 的 基本 知识 1 
随机 事件 与 概率 .i 1 
1.1.1 随机 事件 .. 1 
人 3 
1.1.3 古典 概 型 .. .is 5 
EE 6 
1.1.5 条 件 概率 . . 7 
1.1.6 ”概率 的 乘法 公式 、 全 概率 公式 、 Bayes 公式 ........ 8 
Pel hy 9 
1.1.8 n 重 Bernoulli 试验 及 其 概率 计算 .............. 10 
随机 变量 及 其 分 布 .. .i 11 
1.2.1 随机 变量 的 定义 . 11 
1.2.2 ”随机 变量 的 分 布 函 数 ..................... 11 
1.2.3 离散 型 随机 变量 . ........... .i 12 
1.2.4 连续 型 随机 变量 . ........... .i 14 
1.2.5 随机 向 量 . .i 18 
随机 变量 的 数字 特征 ... .i 22 
1 22 
人 24 
1.3.3 几 种 常用 随机 变量 分 布 的 期 望 与 方差 ............ 25 
1.3.4 协 方差 与 相关 系数 ...................... 25 
1.3.5 和 矩 与 协 方差 矩阵 . . ... 27 
极限 定理 和 29 
WN ye 6 5 ET 30 











i EN 

I 鹿 旋 概 限 是 到 31 

1.5 ”数理 统计 的 基本 概念 . .i 32 
1.5.1 总体、 个体 、 简 单 随机 样本 ................. 33 
1.5.2 ”参数 空间 与 分 布 族 ....................... 34 
1.5.3 统计 量 和 抽样 分 布 .. 35 
1.5.4 正 态 总 体 样 本 均值 与 样本 方差 的 分 布 ............ 42 
ee ee a Oe ee 43 
第 二 章 ”及 软件 的 使 用 47 
2 民 软 件 简 人 Me 47 
2.1.1 R 软件 的 下 载 与 安装 ................... 48 
De i ee i 49 
2.1.3 RR 主 窗口 命令 与 快捷 方式 ................... 55 

2.9， 洲 字 字符 与 癌 量 sy 66 
1 66 
2.2.2 产生 有 规律 的 序列 .i 69 
i 1 RE 70 
2.2.4 缺失 数据 71 
9:0.5. 72 
99:6、 刍 入 间 是 和 古 全 全 全 人 全 人 人 73 
22.7 | 间 本 汶 导 2 车 73 

2.3 ”对象 科 它 的 模式 与 属性 ............... .i 76 
2.3.1 固有 属性 : mode 和 length ................. 76 
2.3.2 ”修改 对 象 的 长 度 .i 77 
2.3.3 attributes() 和 attr() 函数 .............. .i 78 
2.3.4 对象 的 class 属 性 ....................... 79 

Dds EI i te a te 79 
9" {atOr() RD 80 


2.5 


2.6 


2.7 


2.8 


2.9 


2.4.2 tapply() 函数 . 81 
oN lO 81 
多 维 数 组 和 乍 阵 . . 82 
2.5.1 生成 数组 或 矩阵 ........................ 82 
人 2 光标 二 和 全 于 全 人 人生 83 
2.5.3 数组 的 四 则 运算 ........................ 86 
2.5.4 定 阵 的 运算 .. 87 
2.5.5 与 矩阵 (数组 ) 运算 有 关 的 函数 ................ 94 
| 表 与 数据 人 慌 - 97 
96 DR Lat) ed a 97 
2.6.2 ”数据 框 (dataframe).. .i 99 
2.6.3 列表 与 数据 框 的 编辑 ..................... 102 
I SD 人 人 人 103 
2.7.1 读 纯 文本 文件 . .4 103 
2.7.2 读 其 它 格式 的 数据 文件 . . 106 
2.7.3 ”链接 从 入 的 数据 库 . . 108 
2.7.4 写 数 据 文 件 . . ......  . . 109 
村 全 110 
I 5 111 
2.8.2 中止 语 句 与 空 语句 ......... .i 112 
92.8.9 循环 请 全 od 112 
编写 自已 的 鸭 妆 入 114 
2.9.1 简单 的 例子 . 114 
2.9.2 ”定义 新 的 二 元 运算 ....................... 117 
2.9.3 有 名 参数 与 省 缺 . .................... 117 
2.9.4 递归 函数 .i 120 


DE SR AO Ae eC 121 


1V 目录 





第 三 章 ”数据 描述 性 分 析 125 
Bd a an fo A Ov Ye 125 
3.1.1 位 置 的 度量 .... .i 125 
3.1.2 ”分 散 程度 的 度量 . ....................... 131 
3.1.3 ”分布 形状 的 度量 . ....................... 133 

32 数据 鸭 人 而 计生 135 
3.2.1 分 布 函数 .i 136 
3.2.2 ”直方 图 、 经 验 分 布 图 与 QQ 图 ................ 139 
3.2.3 葵 叶 图 、 箱 线 图 及 五 数 总 括 ................. 144 
3.2.4 正 态 性 检验 与 分 布 拟 合 检验 ................. 151 

3.3 及 软件 中 的 绘图 命令 .i 152 
3.3.1 ”高 水 平 绘图 函数 .............. .i 153 
3.3.2 ”高 水 平 绘图 中 的 命令 ..................... 160 
3.3.3” 低 水 平 作 图 函数 ........................ 162 

3.4 ”多 元 数据 的 数据 特征 与 相关 分 析 ................... 164 
3.4.1 二 元 数据 的 数字 特征 及 相关 系数 ............... 164 
3.4.2 ”二 元 数据 的 相关 性 检验 .................... 166 
3.4.3 ”多 元 数据 的 数字 特征 及 相关 和 窍 阵 . .............. 169 
3.4.4 ”基于 相关 系数 的 变量 分 类 ................... 173 

3.5 ”多 元 数据 的 图 表示 方法 .i 180 
3.6 办 廊 图 9 181 
本 同和 183 
3.5.3 调和 曲线 图 .i 186 
rr 187 
第 四 章 ”参数 估计 191 
2 EE 191 


RT EE ee A A 192 


4.1.2 极 大 似 然 法 196 

4.2 估计 量 的 优良 性 准则 . .i 205 
,A 下 于 于 天 下 各 205 
省 2 有 207 
423 相 人 各 性 :( 研 狼 性 ) 人 全 下 人 全 全 生生 二 二 二 全 二 208 

下 人 区 间 生 和 208 
4.3.1 一 个 正 态 总 体 的 情况 . 209 
4.3.2 ”两 个 正 态 总 体 的 情况 ..................... 214 
4.3.3” 非 正 态 总 体 的 区 间 信 计 ............... 223 
4.3.4 单 侧 置信 区 间 估 计 ........ .i 224 
A 235 
第 五 章 ”假设 检验 239 
5.1 假设 检验 的 基本 概念 ..................... 239 
i 239 
5.1.2 假设 检验 的 基本 思想 与 步 台 ................. 241 
5.1.3 假设 检验 的 两 类 错误 ..................... 242 

5.2 重要 的 参数 检验 242 
5.2.1 正 态 总 体 均 值 的 假设 检验 ................... 242 
5.2.2 正 态 总 体 方 差 的 假设 检验 ................... 253 
5.2.3 ”二 项 分 布 总 体 的 假设 检验 ................... 259 

5.3 若干 重要 的 非 参 数 检 验 .i 261 
5.3.1 ”Pearson 拟 合 优 度 检验 . 261 
5.3.2 Kolmogorov-Smirnov 检 验 .................. 268 
5.3.3” 列 联 表 数 据 的 独立 性 检验 ................... 270 
O34 i 277 
93 281 
5.3.6 ” 秩 相 关 检 验 .............. .i 282 
5.3.7 Wilcoxon 秩 检 验 ......... .i 286 


vl 


第 一 章 ”概率 统计 的 基本 知识 


本 书 是 一 本 统计 建 模 与 软件 应 用 相 结 合 的 教科 书 , 其 讲述 重点 放 在 数理 统计 
的 基本 方法 和 用 R 软件 进行 相应 的 计算 ， 众所周知 ， 数 理 统计 是 以 概率 论 为 基 
础 、 应 用 非常 广泛 的 数学 学 科 分 支 ， 是 通过 对 试验 或 观察 数据 进行 分 析 ， 来 研究 
随机 现象 以 达到 对 研究 对 象 的 客观 规律 性 做 出 合理 的 估计 和 推断 的 目的 , 因此 在 
介绍 统计 建 模 和 R 软件 知识 之 前 ， 有 必要 先 回 顾 一 下 相关 的 概率 与 数理 统计 的 
基本 概念 ， 以 及 数理 统计 的 各 个 应 用 分 支 . 

本 章 用 四 节 的 内 容 简单 回顾 概率 论 的 基础 知识 , 用 一 节 的 内 容 简 单 介绍 数理 
统计 的 基本 概念 . 这 样 做 的 目的 是 使 读者 对 已 有 概率 论 的 知识 有 一 个 全 面 的 了 解 
与 回顾 ， 对 数理 统计 的 概念 有 一 个 基本 的 认识 . 








1.1 随机 事件 与 概率 


1.1.1 随机 事件 


1. 随机 事件 

在 一 定 条 件 下 ， 所 得 的 结果 不 能 预先 完全 确定 ， 而 只 能 确定 是 多 种 可 能 结果 
中 的 一 种 ， 称 这 种 现象 为 随机 现象 . 例如 ， 抛 掷 一 枚 硬币 ， 其 结果 有 可 能 是 出 现 
正面 ， 也 有 可 能 是 出 现 反面 ; 电话 交换 台 在 1 分 钟 内 接 到 的 呼叫 次 数 ， 可 能 是 0 
次 、1 次 、2 次 、…; 在 同一 工艺 条 件 下 生产 出 的 灯泡 ， 其 使 用 寿命 有 长 有 短 ; 
测量 同一 物体 的 长 度 时 ， 由 于 仪 属 及 观察 受到 环境 的 影响 ， 多 次 测量 的 结果 往往 
有 差异 ， 等 等 ， 这 些 现 象 都 是 随机 现象 . 

使 随机 现象 得 以 实现 和 对 它 观 察 的 全 过 程 称 为 随机 试验 (random experi- 
ment), 记 为 五. 随机 实验 满足 以 下 条 件 : 

(1) 可 以 在 相同 条 件 下 重复 进行 ; 

(2) 结果 有 多 种 可 能 性 ， 并 且 所 有 可 能 结果 事先 已 知 ; 

(3) 作 一 次 试验 究竟 哪个 结果 出 现 ， 事 驳 不 能 确定 . 

称 随机 试验 的 所 有 可 能 结果 组 成 的 集合 为 样本 空间 (sample space), 记 为 8. 
试验 的 每 一 个 可 能 结果 称 为 样本 点 (sample point), 记 为 w. 
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称 0 中 满足 一 定 条 件 的 子 集 为 随机 事件 (random event), 用 大 写字 母 4, B， 

一 个 随机 事件 只 含 一 个 不 可 再 分 的 试验 结果 称 为 一 个 基本 事件 ( 即 一 个 样本 
点 所 作成 的 集合 {2}). 

在 试验 中 , 称 一 个 事件 发 生 是 指 构成 该 事件 的 一 个 样本 点 出 现 ， 由 于 样本 空 
间 2 包含 了 所 有 的 样本 点 ， 所 以 在 每 次 试验 中 ， 它 总 是 发 生 ， 因 此 称 9 为 必然 
事件 (certain event). 空 集 0 不 包含 任何 样本 点 ， 且 在 每 次 试验 中 总 不 发 生 ， 所 
以 称 01 为 不 可 能 事件 (impossible event). 

2. 随机 事件 之 间 的 关系 

若 事件 4 的 发 生 必然 导致 事件 B 的 发 生 ， 则 称 事件 4 包含 于 事件 B, 或 事 
件 已 包含 事件 4, 记 为 4 C B, 亦 称 为 事件 的 包含 (contain) 关系 . 

若 4cB, 且 Bc 4 出 称 事件 4 与 事件 也 等 价 (equivalent), 记 为 4 一 忆 

若 事件 4 与 事件 B 至 少 有 一 个 发 生 ， 则 称 为 事件 的 和 (union), 记 为 4U B. 
各 7 个 事件 41，A2, ..…，An 中 至 少 有 一 个 发 生 ， 则 称 为 ”个 事件 的 和 ， 记 为 
4iU4U:…U4 或 4 

这 1 


同样 ， 可 以 定义 可 列 无 穷 个 事件 的 和 A1U A2U.…U A,U.… 或 U A, 表示 
无 穷 个 事件 中 至 少 有 一 个 发 生 . 

若 事件 4 发 生 而 事件 B 不 发 生 , 则 称 为 事件 4 与 事件 B 的 差 , 记 为 4_ B， 

若 事件 4 与 B 同时 发 生 ， 则 称 事 件 4 与 事件 B 的 积 (intersection), 记 为 
AnB 或 AB. 若 n 个 事件 A, 42,…, 4 同时 发 生 ， 则 称 为 ”个 事件 的 积 ， 记 
为 A1NnN AsNn :Nn A, 或 站 4 


同样 ， 可 以 定义 可 列 无 穷 个 事件 的 积 41n 4 .…n Ann… 或 站 A 表示 
无 穷 个 事件 同时 发 生 . 

者 事件 4 与 B 不 能 同时 发 生 ， 则 称 事件 4 与 事件 B 为 互 斥 事件 (mutually 
exclusive event) 或 不 相 容 事件 (incompatiable event), 记 为 4B = 0. 

在 一 次 试验 中 ， 基 本 事件 之 间 是 两 两 互 斥 的 . 

若 4 为 随机 事件 , 称 “ 事 件 4 不 发 生 ” 的 事件 为 事件 4 的 对 立 事件 (opposite 
event) 或 逆 事 件 (complementary event)， 记 为 4， 事 件 与 对 其 立 事件 有 如 下 关 
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系 : 
AUA=0, AA=1. 
由 定义 可 知 ， 对 立 事件 一 定 是 互 斥 事件 ， 但 互 斥 事件 不 一 定 是 对 立 事件 . 
3. 随机 事件 的 运算 律 
(1) 交换 律 
AUB= BUA, AB=BA. (1.1) 
(2) 结合 律 
(AUB)UC= AU(BUC), (ANB)NC=AN(BNMO). (1.2) 
(3) 分 配 律 
(AUB)C = (AC)U(BC), AU(BC)= (AUB)(AUO). (1.3) 
(4) 德 . 摩根 律 
AUAs=ANA,, ANMA,=AUA;. (1.4) 
对 于 个 或 可 列 无 穷 个 事件 有 
(JAi={)4: (A4r=()A:, (JAs=()A:, (hr=( A. (1.5) 
k=1 k=1 k=1 k=1 k=1 k=1 k=1 k=1 
(5) 减法 满足 
A-B=AB 或 A4-B=ANB. (1.6) 
1.1.2 ”概率 


1. 概率 的 公理 化 定义 


在 概率 论 中 并 非 样 本 空间 2 的 任何 子 集 均 可 以 看 作 事 件 ， 所 定义 的 事件 之 


间 应 满足 一 定 的 代数 结构 . 
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定义 1.1 设 随 机 试验 轧 的 样本 空间 为 2, 三 是 @ 的 子 集 组 成 的 集 族 ， 满 足 

(Dj Qe; 

(2) 著 Ae, 则 Ae; (对 送 运算 封闭 ) 

(3) 车 Ai € ,i ==1,2,:…, 则 U4 E 太 . (对 可 列 并 运算 封闭 ) 
则 称 厂 为 的 一 个 0- 代数 (事件 体 ) ， 厂 中 的 集合 称 为 事件 ， 样 本 空间 Q 和 
0 代数 的 二 元 体 (Q, 下) 称 为 可 测 空 间 . 
定义 1.2 随机 试验 马 的 样本 空间 为 Q, (Q, 太 ) 是 可 测 空间 , 对 于 每 个 事件 4 e 和 丰 ， 
定义 一 个 实数 P(A) 与 之 对 应 ， 若 函数 P(:) 满足 条 件 : 

(1) 对 每 个 事件 A, 均 有 0< P(A)<1; 

(0 Es 

(3) 著 事 件 41， Ao, … 两 两 互 斥 ， 即 对 于 i,j 二 1,2,…, 1 关 j, Aihj;= 二 0 均 
有 

P(A1U AsU::.)= P(Ai1) + P(As)+-:…, 

则 称 P(A) 为 事件 4 的 概率 (probability), 称 (Q, 下 , 忆 ) 为 概率 空间 . 

2. 概率 的 性 质 

性 质 1: P(W) = 0, 即 不 可 能 事件 的 概率 为 零 . 

但 性 质 反 过 来 不 成 立 ， 即 P(4) = 0 办 4= 小 

性 质 2: 若 事件 41, A2,……, A 两 两 互 斥 ， 则 有 


P(4iU4UU4)= 忆 4)+P4) 十 十 已 4 (1.7) 


即 互 斥 事件 和 的 概率 等 于 它们 各 自 概 率 的 和 . 
性 质 3: 对 任 一 事件 4, 均 有 P(4) = P(4)， 
性 质 4: 对 两 个 事件 4 和 B, 奉 4C B, 则 有 


DB (1.8) 


性 质 5: (加 法 公式 ) 对 任意 两 个 事件 4 和 B, 有 


P(AUB)= P(A)+P(B) — P(AB). (1.9) 


1.1 随机 事件 与 概率 5 


性 质 5 可 以 推广 为 : 


P(A1U AsUAs) = PIA)+P(A2)+ P(As)— P(AiA2) — P(AiA;) 
_P(AsA3) + P(A1AsAs), (1.10) 


P(AIUAsU::.UA,)=5— 65+ 0+ + (1)" 5,, (1.11) 


其 中 51 = > PA), S2 = 2 P(4iA;), S83 = 2 P(AiA;Axr), .…., 


= 1<i<j<n 1<i<7<k<n 
hs 


1.1.3 古典 概 型 


设 随机 事件 互 的 样本 空间 中 只 有 有 限 个 样本 点 , 即 8 = {onwa ,ww 其 
中 7 为 样本 点 总 数 ， 每 个 样本 点 wi(i = 1,2,.…,n) 出 现 是 等 可 能 的 ， 并且 每 次 
试验 有 且 仅 有 一 个 样本 点 发 生 ， 则 称 这 类 现象 为 古典 概 型 (classical probability 
model). 者 事件 4 包含 m 个 样本 点 ， 则 事件 4 的 概率 定义 为 


P(A4) = 外 二 事件 4 包含 的 基本 事件 数 ee 


n 基本 事件 总 数 

例 1.1 设 有 天 个 不 同 的 (可 分 辨 ) 球 ， 每 个 球 都 能 以 同样 的 概率 1/1 落 到 1 个 
格子 (1 二 有 ) 的 每 一 个 中 ， 且 每 个 格子 可 容纳 任意 多 个 球 ， 试 分 别 求 如 下 两 事件 
A 与 B 的 概率. 

A: 指定 的 天 个 格子 中 各 有 一 个 球 ; 

B: 存在 大 个 格子 ， 其 中 各 有 一 个 球 . 

解 : 由 于 每 个 球 可 以 落 入 ! 个 格子 中 的 任 一 个 ， 并 且 每 一 个 格子 中 可 落 入 任 
意 多 个 球 , 所 以 有 个 球 落 入 ! 个 格子 中 的 分 布 情况 相当 于 从 ! 个 格子 中 选取 个 
的 可 重复 排列 ， 故 样本 空间 共有 * 种 等 可 能 的 基本 结果 . 

事件 4 所 含 基本 结果 数 应 是 天 个 球 在 指定 的 天 个 格子 中 的 全 排列 数 ， 即 kl， 


所 以 
kl! 


P(4) = 元 


为 了 算出 事件 B 所 含 的 基本 事件 数 ， 可 设想 分 两 步 进行 ， 因 为 上 个 格子 可 
以 是 任意 选取 的 ， 故 可 先 从 /个 格子 中 任意 选 出 个 来 ， 选 法 共有 CF 种 ， 对 于 
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每 种 选 定 的 大 个 格子 ， 依 上 述 各 有 一 个 球 的 推理 ， 则 有 刀 个 基本 结果 , 故 B 全 
有 Ckk! 个 基本 结果 . 所 以 
ee 
PB)= 0 = (一 大 JU 

概率 论 的 历史 上 有 一 个 颇 为 著名 的 问题 一 生日 问题 : 求 上 个 同班 同学 没有 
两 人 生日 相同 的 概率 . 

若 把 这 上 个 同学 看 作 例 1.1 中 的 有 个 球 ， 而 把 一 年 365 天 看 作 格 子 ， 即 
1= 365, 则 上 述 的 P(B) 就 是 所 要 求 的 概率 .例如 ,有 = 40 时 , P(B) = 0.109. 或 者 
换 句 话说 ，40 个 同学 中 至 少 两 个 人 同一 天 过 生日 的 概率 是 ，P(B) = 1 一 0.109 = 
0.891, 其 概率 大 的 出 乎 意料 . 

1.1.4 ”几何 概 型 

当 随 机 试验 的 样本 空间 是 某 一 可 度量 的 区 域 ， 并且 任意 一 点 落 在 度量 (长 
度 、 面 积 与 体积 ) 相同 的 子 区 域内 是 等 可 能 的 ， 则 事件 4 的 概率 定义 为 
_ 54 _ 构成 事件 4 的 子 区 域 的 度量 

样本 空间 的 度量 | 
这 种 概率 模型 称 为 几何 概 型 (geometric probability model). 

例 1.2 (Buffon( 薄 丰 ) 投 针 问题 ). 设 平面 上 和 画 有 等 距 为 a 的 一 繁 平行 线 ， 取 一 枚 
长 为 I(1 < a) 的 针 随 意 扔 到 平面 上 ， 求 针 与 平行 线 相 交 的 概率 ， 

解 : 设 x 表示 针 的 中 心 到 最 近 一 条 平行 线 的 距离 ， 0 表示 针 与 此 直线 间 的 

交角 (图 1.1(a)), 则 (4,x) 完全 决定 针 所 落 的 位 置 ， 针 的 所 有 可 能 的 位 置 为 


9= 0C 司 :0<0<n7, 0< zs 5}. 














P(A) (1.13) 








它 可 用 0 一 x 平面 上 的 一 个 矩形 来 表示 (图 1.1(b)). 针 与 平行 线 相交 的 充分 必要 
条 件 是 z < 3sin9, 即 图 1.1(b) 中 阴影 部 分 ， 它 的 面积 》 


a 人 
0 2 


因此 ， 帮 把 往 平 面 上 随意 扔 一 枚 针 理 解 为 2 内 的 任 一 点 为 等 可 能 ， 且 记 针 与 任 
一 平行 线 相交 的 事件 为 4, 则 
SA 2 


P(4)= 学 = 二 (1.14) 
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图 11: Buffon 投 针 的 几何 概率 


由 式 (1.14) 可 以 利用 投 针 试 验 计 算 + 值 . 设 随机 投 针 n 次 ， 其 中 次 针线 
相交 ， 当 n 充分 大 时 ， 可 用 频率 4 作为 概率 p 的 估计 值 ， 从 而 求 得 7 的 估计 值 


为 
2n, 


和 
根据 公式 (1.15), 历史 上 曾 有 一 些 学 者 作 了 随机 投 针 试 验 ， 并 得 到 7 的 佑 计 值 
1.1.5 ”条 件 概率 


研究 随机 事件 之 间 的 关系 时 , 在 已 知 某 些 事 件 发 生 的 条 件 下 考虑 另 一 些 事件 
发 生 的 概率 规律 有 无 变化 及 如 何 变化 ， 是 十 分 重要 的 . 

设 A 和 B 是 两 个 事件 ， 且 P(B) > 0, 称 
P(AB) 
P(B) 
为 在 事件 B 发 生 的 条 件 下 ， 事 件 4 发 生 的 条 件 概 率 (conditional probability). 

例如 ， 某 集体 中 有 个 男人 和 WM 个 女人 ， 其 中 患 色盲 者 男性 mn 人， 女性 
m 人 . 用 9 表示 该 集体 ， 4 表示 其 中 全 体 女 性 的 集合 ， B 表示 其 中 全 体 色 盲 
者 的 集合 . 如 果 从 9 中 随意 抽取 一 人 ， 则 这 个 人 分 别 是 女性 、 色 言 者 和 同时 既 
为 女性 又 是 色盲 者 的 概率 分 别 为 

= Tv PB)= Ny P(AB)= 


ee = 


如 果 限 定 只 从 女性 中 随机 抽取 一 人 ( 即 事 件 4 已 发 生 ), 那么 这 个 女人 为 色 
言 者 的 (条 件 ) 概率 


个 = (1.15) 





P(AIB) = 





(1.16) 


M 170 十 多 m 











P(BI = 元 = 
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条 件 概 率 也 是 概率 ， 它 满足 概率 公理 化 定义 中 的 三 条 ， 即 

(1) 对 每 个 事件 4, 均 有 0 < P(A4IB)<1; 

(2) PIO B) = 1; 

(3) 知事 件 A1, 42,…, 两 两 互 斥 ， 即 对 于 67 = 二 1,2,…, i 关 j， 4ihj; = 和 有 


PO AB P(A + AB) 


并 且 对 于 在 前 面 给 出 的 概率 性 质 和 公式 ， 也 都 适用 于 条 件 概率 . 例如 ,对 任意 的 
事件 A1, 4A2, 有 


P((A1U A2)|B) = P(A1NB) + P(A2|B) — P(A1A2NB). 


1.1.6 ”概率 的 乘法 公式 、 全 概率 公式 、 Bayes 公式 
由 条 件 概率 公式 ， 得 


P(AB) = P(A|B)P(B) = P(BIA)P(A). (i 
称 式 (1.17) 为 概率 的 乘法 公式 (multiplication formula). 
乘法 公式 的 推广 ， 对 于 任何 正 整 数 n> 2, 当 P(A142:…An_1) >0 时， 有 
BAA A PU lA (A A a AA da 
(1.18) 
定义 1.3 如 果 事 件 组 Bi, Bo,… 满足 


(1) Bi Ba 两 两 互 斥 ， 即 Bi B; = 0,1i#7, ,j=1,2,..., 有 ££ P(B;) > 0， 


(2) BiU BsU...=0, 
则 称 事件 组 B1, Bs,.… 是 样本 空间 Q 的 一 个 划分 . 
设 Bi1, Bo,.… 是 样本 空间 Q 的 一 个 划分 ， 4 为 任 一 事件 ， 则 


-DP P(A|B,). (1.19) 


称 式 (1.19) 为 全 概率 公式 (formula of total probability). 
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设 Bi1, B2,… 是 样本 空间 Q 的 一 个 划分 ， 则 对 任 一 事件 4 (P(A) > 0), 有 
BPA 
ye 

称 式 (1.20) 为 Bayes ( 贝 叶 斯 ) 公式 (Bayes formula), 称 式 中 的 P(B;)(i = 1,2,:….) 

为 先 验 概率 ， 称 PUBil4) (i = 1,2,…) 为 后 验 概率 . 

在 实际 中 ， 常 取 对 样本 空间 9 的 有 限 划 分 Bi Bo,…, Bn (例如 BB 与 BB 就 
构成 样本 空间 0 的 一 个 划分 )， Bi 常 被 视 为 导致 试验 结果 4 发 生 的 “原因 ”， 
而 P(Bi;) 表示 各 种 “原因 ”发 生 的 可 能 性 大 小 ， 故 称 为 先 验 概率 ; PUBi4) 则 
反应 当 试验 产生 了 结果 4 之 后 ,再 对 各 种 “原因 ”概率 的 新 认识 ， 故 称 为 后 验 概 
例 1.3 假定 用 血清 甲 胎 蛋 白 法 诊断 肝癌 . 用 C 表示 被 检验 者 有 肝癌 这 一 事件 ， 
用 A 表示 被 检验 者 为 阳性 反应 这 一 事件 . 设 P(4|C) = 0.95, P(AIC) = 0.90. 
若 某 人 群 中 P(C) = 0.0004, 现 有 一 人 哇 阳 性 反应 ， 求 此 人 确 为 肝癌 患者 的 概率 
P(C|A). 

解 由 Bayes 公式 ， 有 

P(C)P(AIC) 

P(C)P(AIC) + P(C)P(AIC) 

0.0004 x 0.95 


二 一 一 一 一 0.0038. 
0.0004 x 0.95 十 0.9996 x 0.10 


lc 


1.1.7 ”独立 事件 

如 果 两 事件 4, 忆 的 积 事 件 发 生 的 概率 等 于 这 两 个 事件 的 概率 的 乘积 ， 即 

P(AB) = P(A)P(B), 

则 称 事件 4 与 事件 B 是 相互 独立 的 (mutually independent). 

性 质 : 若 事件 4 与 事件 B 相互 独立 , 则 4A 与 B, 4 与 B, 4 与 B 也 相互 独 
YE: 

推广 : 设 4 42,…, A 为 nn 个 事件 ，n > 2. 如 果 对 于 其 中 的 任意 及 (% > 2) 
个 事件 Aii, 4 ,Ai,, 1 Hi 区 ?2 < i < nn, 等 式 
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均 成 立 ， 则 称 n 个 事件 A1, 42,.…, A 相互 独立 . 

多 个 相互 独立 事件 有 如 下 性 质 : 

(1) 若 事件 41, 42,…, A 相互 独立 ， 则 4 42,…, A 中 任意 大 (5 二 2) 个 
事件 Ai, Ai,…,Ai,1<ii<is<…<ii<n, 也 相互 独立 ; 

(2) 若 事件 41, 42,…, A 相互 独立 ， 则 事件 Bi, B2， …, Bn 也 相互 独立 . 其 
中 B; 或 为 Ai; 或 为 Ai, ey 

注意 : 若 41, 42,…, 4, 相互 独立 则 有 A1, 42,…, A 两 两 相互 独立 , 反 过 来 
若 41， 42， 人 4 两 两 相互 独立 则 不 一 定 有 41， 42， SA 4 相互 独立 . 事实 上 ， 
n 个 事件 相互 独立 ， 则 要 有 C2 十 3 十 … 十 O07 二 27 一 n 一 1 个 等 式 成 立 ; 而 两 
两 独立 只 需 有 0? = 人 个 等 式 成 立 . 
例 1.4 设 有 4 张 上 片 其 中 3 张 上 分 别 记 有 字母 4 和 B,B 和 C,A 和 和 0, 第 4 
张 是 空白 .从 中 随机 机 取 一 张 ， 就 用 A, (B 和 C0) 分别 记 事件 “和 机 到 的 卡片 上 有 
字母 A, (B 和 0)”, 则 显然 有 








P(A) = P(B) = P(C) = 3, 


P(A4B) = P(AC) = P(BC) = 7 
P(ABC) = 0 # P(A)P(B)P(C). 


因此 ， A, B,C 三 个 事件 中 任意 两 个 相互 独立 ， 但 这 三 个 事件 并 不 相互 独立 ， 
1.1.8 九重 Bernoulli 试验 及 其 概率 计算 
如 果 一 个 随机 试验 只 有 两 种 可 能 的 结果 4 和 4, 并 且 


P(A)=p, P(A)=1-p 


q, 


其 中 0 <p < 1 则 称 此 试验 为 Bernoulli ( 伯 努 利 ) 试验 (Bernoulli trial). Bernoulli 
试验 独立 重复 进行 n 次 ， 称 为 n 重 Bernoulli 试验 . 

例如 ， 从 一 批 产品 中 检验 次 品 ， 在 其 中 进行 有 放 回 抽样 n 次 ， 抽 到 次 品 称 为 
“成功 ”, 抽 到 正品 称 为 “失败 ”, 这 就 是 n 重 Bernoulli 试验 . 


设 


Ax = {n 重 Bernoulli 试验 中 4 出 现 上 次 }, 
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则 


这 就 是 著名 的 二 项 分 布 ， 常 记 作 B(n,). 





1.2 ”随机 变量 及 其 分 布 
1.2.1 ”随机 变量 的 定义 


定义 1.4 设 妃 是 随机 试验 ，9 是 样本 空间 ， 如 果 对 于 每 一 个 w € 0, 都 有 一 个 
确定 的 实数 X(w) 与 之 对 应 ， 若 对 于 任意 实数 TE R, 有 {w:X(w)<x}erF, 
则 称 Q 上 的 单 值 实 函数 X(w) 为 一 个 随机 变量 (random variable). 

从 定义 可 知 随机 变量 是 定义 在 样本 空间 2 上 ， 取 值 在 实数 域 上 的 函数 .由 
于 它 的 自 变 量 是 随机 试验 的 结果 ， 而 随机 试验 结果 的 出 现 具有 随机 性 ， 因 此 ， 随 
机 变量 的 取 值 也 具有 一 定 的 随机 性 ， 这 是 随机 变量 与 普通 函数 的 不 同 之 处 . 














1.2.2 ”随机 变量 的 分 布 函数 

描述 一 个 随机 变量 , 不仅 要 说 明 它 能 够 取 那 些 值 ， 而 且 还 要 关心 它 取 这 些 值 
的 概率 ， 因 此 ， 引 入 随机 变量 的 分 布 函 数 的 概念 . 
定义 1.5 设 外 是 一 个 随机 变量 ， 对 任意 的 实数 x, 令 


F(z)= P{X < x}, ZE( 一 co 十 oo)， (1.22) 


则 称 下 (ZX) 为 随机 变量 X 的 分 布 函数 (distribution function), 也 称 为 概率 累积 函 
数 (probability cumulative function). 

从 直观 上 看 , 分 布 函数 (x) 是 一 个 定义 在 (一 00, 十 00) 上 的 实 值 函 数 ，F(x) 
在 点 2 处 取 值 为 随机 变量 X 落 在 区 间 (一 0o, x] 上 的 概率 . 

分 布 函 数 具 有 以 下 性 质 

(1) 0<F(z)<1; 
(2) F(z) 是 单调 不 减 函 数 ， 即 当 zi < za 时 ， P(x1) < 了 F(z2); 
(3) f(—00) = lim F(z) = 0, 下 (二 oo) = ,im F(x)=1; 
(4) F(z) 是 右 连续 的 函数 ， 即 lim F(z) = F(z0),V zo E 已 均 成 立 ; 


TT0 


4 
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(5) Pfa<X <06}= (0)— F(a); 
(6) P{X >a}=1— P{X <a}=1— F(a). 


在 理论 上 已 经 证 明 : 如 果 一 个 函数 满足 上 述 的 前 四 条 性 质 ， 则 它 一 定 是 茶 个 


随机 变量 的 分 布 函数 . 
1.2.3 ”离散 型 随机 变量 
1. 离散 型 随机 变量 


定义 1.6 如 果 随 机 变量 X 的 全 部 可 能 取 值 只 有 有 限 多 个 或 可 列 无 穷 多 个 ， 则 称 


X 为 高 散 型 随机 变量 
定义 1.7 对 于 离散 型 随机 变量 X 可 能 取 值 为 ZK 的 概率 为 : 

P{X = Xk} = Di k= 1,2,.., 
则 称 式 (1.23) 为 离散 型 随机 变量 X 的 分 布 律 . 


离散 型 随机 变量 的 分 布 律 具 pr 有 以 下 性 质 
(1) px > 0, k= 1,2,...; 











(2) Pr =1. 
可 用 表 1.1 来 表示 其 分 布 律 . 
表 1.1: 分 布 律 
X 21 Xo 1 汶 
Dk pi p2 Dk 
离散 型 随机 变量 的 分 布 函数 为 
FP PX > 


2. 常见 的 离散 型 分 布 
(1) 两 点 分 布 (0 一 1 分 布 ) 
耕 随机 变量 X 的 分 布 律 为 : 


P{X=k}=p(1—p)'*, k=0,1, (0<p<1), 


(23) 


(1.24) 


(1.25) 
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则 称 X 服从 参数 为 p 的 两 点 分 布 ， 记 作 X ~ B(1,p). 其 分 布 函数 为 


0, 过 
F(Z)=41-p，0<z<1， (1.26) 
1 T=>1. 


(2) Bernoulli 试验 ， 二 项 分 布 
若 随机 变量 X 的 分 布 律 为 
P{X=k}= Op (1 pp" *, k=0,1,..,n, (1.27) 
则 称 X 服从 参数 为 n,p 的 二 项 分 布 (binomial distribution), 记 为 X ~ B(n,p)， 
其 中 Ckp*(1 一 p)”* 是 mn 重 Bernoulli 试验 中 事件 4 恰好 发 生 天 次 的 概率 ， 其 


分 布 函 数 为 





POD OD (1.28) 
k=0 
其 中 |zx| 表示 下 取 整 ， 即 不 超过 z 的 最 大 整数 ， 下 同 . 
(3) Poisson 分 布 
若 随 机 变量 X 的 分 布 律 为 
PIX= 同 = 证 (1.29) 


则 称 X 服从 参数 为 入 的 Poisson ( 泊 松 ) 分 布 (Poisson distribution), 记 作 X ~ 
P(A 和) 或 XX~7( 和 ), 其 中 入 > 0 为 常数 .其 分 布 函数 为 


[lz] Ae- 
PU) 二 (1.30) 
k=0 


定理 1.1 (Poisson 定理 ) 
在 Bernoulli 试验 中 ， 以 pn 代表 事件 4 在 试验 中 出 现 的 概率 ， 它 与 试验 总 
数 nn 有关， 如 果 npn 一 入 则 当 n 一 00 时 ， 有 





入 ke 一 ^ 
lim Ceox(l 一 Dj" 一 (1.31) 
当 n 很 大 且 pn 很 小 时 ， 二 项 分 布 可 以 用 Poisson 分 布 来 近似 代替 ， 即 
太一 入 
Crpr (l= pe) (1.32) 


kl 
其 中 入 = npn. 
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1.2.4 ”连续 型 随机 变量 
1. 连续 型 随机 变量 


定义 1.8 对 于 随机 变量 X, 如 果 存 在 一 个 定义 在 (一 00, 十 00) 上 的 非 负 函数 f (7)， 
使 得 对 于 任意 实数 zx ， 总 有 


F(z)= P{X < 7z}= 三 f(t)dt, 一 co<Z< 十 co， (1.33) 


则 称 X 为 连续 型 随机 变量 ， jJz) 为 X 的 概率 密度 函数 (probability density 
function), 简称 概率 密度 ， 
a 
J 有 
对 于 任意 的 实数 wba < 全 ,都 有 Pfa < 文昌 = f(z 
(3) 若 f(z) 在 点 x 处 连续 ， 则 f(z) = (7x); 
(4) 对 任意 实数 w 总 有 P{X = a} = 0. 


2. 常见 的 连续 型 分 布 


(1) 均匀 分 布 
若 随 机 变量 X 的 概率 密度 函数 为 
1 
et < < b, 
| ee (1.34) 
0， 其 它 ， 


则 称 X 服从 区 间 [a,b| 上 的 均匀 分 布 (uniform distribution), 记 为 X ~ Ula,90|. 
其 分 布 函数 为 





0, 2Z < Q， 
F(z) = ee a<x<b, (1.35) 
J r=>0. 


(2) 指数 分 布 
若 随 机 变量 X 的 概率 密度 函数 为 
| Ae*”, rz>0, 


0， 2Z < 0， 


f(z) = (1.36) 
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其 中 入 > 0 为 常数 , 则 称 X 服从 参数 为 和 的 指数 分 布 (exponential distribution). 








其 分 布 函 数 为 
ro 人 (Lg 
0， 2Z < 0. 
(3) 正 态 分 布 
若 随机 变量 X 的 概率 密度 函数 为 
1 (2%) — exp (局 ) ， 一 co<Z< 十 co， (1.38) 


其 中 1,o(o > 0) 是 两 个 常数 ， 则 称 X 服从 参数 为 J,o 的 正 态 分 布 (normal 
distribution), 也 称 为 Gauss 分 布 ， 记 作 和 ~ N(1,0o2). 

图 1.2 描绘 的 是 参数 为 1 二 0,0c=1,4=0,0==0.5 和 w= 2,0o = 0.5 的 正 
态 分 布 的 概率 密度 函数 图 . 











上 =o0G=0.5 


























图 1.2: 正 态 分 布 的 概率 密度 函数 


如 果 改 变 / 值 ， 只 会 改变 正 态 分 布 图 形 的 位 置 ， 而 不 会 改变 它 的 形状 . 如 
果 改 变 o 值 ， 则 会 改变 正 态 分 布 的 形状 . 例如 ， 在 图 1.2 中 ， 可 以 看 到 ， 改 变 / 
值 ， 实 际 上 在 改变 正 态 分 布 的 中 心 位 置 ，/ 值 变 小 ,图 形 向 左 移 动 ，/ 值 变 大 ， 
图 形 向 右 移动 ， 而 改变 o, 则 改变 图 形 的 形状 ， c 的 值 越 小 ， 其 图 形 越 陡 ; 而 o 
越 大 ， 则 图 形 越 平 坦 . 当 我 们 讲 过 数学 期 望 与 方差 的 意义 、 正 态 随 机 变量 的 数学 
期 望 与 方差 后 ， 更 容易 理解 这 一 点 . 
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当 4=0,0=1 时 ，X ~ NN(0,1), 则 称 X 服 从 标准 正 态 分 布 其 概率 密度 
函数 为 





0(Z) = -ep (= 于 ) ， 一 co<2 < 十 co. (1.39) 
其 分 布 函数 为 加 
和 (z) = a 6- dt, (1.40) 


有 B(xz)=1— B®(r). 
图 1.3 给 出 标准 正 态 分 布 的 概率 密度 曲线 ， 以 及 对 应 区 间 上 积分 (相应 的 





不 


0.15 J 
99.7% 


> 
O15- 了 
95.4% 
0.05 上 | 
68.3% 
0 > 
1 2 3 4 


一 4 = -2 -1 0 




















图 1.3: 标准 正 态 分 布 和 对 应 区 间 上 积分 (面积 ) 的 百分比 


面积 ) 的 百分比 . 图 1.3 表明 , 当 X ~ N(0,1) 时 ，P{-1 < X < 1}= 0.683, 
P{-2<X<2}=0.954, P{-3 < <3} = 0.997, 这 些 数量 指标 在 实际 中 是 常 
用 的 ， 应 该 牢记 . 

这 个 概念 可 以 推广 到 一 般 正 态 分 布 ， 也 就 是 说 ， 从 1 一 30 到 十 30 的 区 间 
上 概率 密度 曲线 之 下 的 面积 占 总 面积 的 99.7%, 这 就 是 著名 的 3c 原则 . 

若 和 ~ No ), 则 











1 t—1)2 se 
Pf (SE), -et 0 
一 co TO Oo 


图 1.4 给 出 了 正 态 分 布 的 概率 密度 函数 与 分 布 函数 之 间 的 关系 ， 其 中 曲线 为 概 
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图 1.4: 概率 密度 函数 与 分 布 函数 之 间 的 关系 
率 密度 函数 f(z), 而 阴影 部 分 则 是 分 布 函数 P(x). 由 此 容易 得 到 


Pn < Xo = Pe) -Po) -s(t) -s(t) (1.42) 





(图 1.4 中 的 概率 密度 函数 是 标准 正 态 分 布 的 概率 密度 函数 ). 
设 随 机 变量 X ~ N(0,1), 对 任 给 的 0 < a < 1, 称 满足 条 件 


P{X > Za} = I pz) dt=a (1.43) 


的 点 Zo 为 标准 正 态 分 布 的 上 a 分 位 点 . 

图 1.5 给 出 了 标准 正 态 分 布 的 上 a 分 位 点 和. 的 几何 意义 ， 其 中 阴影 部 分 
面积 的 值 为 a. 

3. 随机 变量 的 函数 的 分 布 

若 随机 变量 X 具有 概率 密度 函数 fx(7), -co < x < +oco, 又 设 g(z) 处 处 可 
导 且 9(z) 不 变 号 ， 则 站 = 9(X) 是 连续 型 随机 变量 ， 其 概率 密度 函数 为 : 

fx (hy <y<p, 
fy(y) = 1; 

其 中 Q: 一 min{g(—00), 9(00)}, b max{g(—00), g(00)}, 一 h(y) 为 外 g(7) 的 
反 郴 数 . 
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图 1.5: 标准 正 态 分 布 的 上 a 分 位 点 


车 g(x) 是 非 单调 函数 ， 设 随机 变量 X 的 分 布 函数 为 Fx(z), 概率 密度 为 
fx(7), Y= g(XX) 的 分 布 函数 为 Fy(y), 概率 密度 为 fy(y), 则 


mw)= | am 


由 此 再 进一步 求 出 fy(y), 不 过 需要 具体 问题 具体 分 析 . 
1.2.5 ”随机 向 量 


1. 随机 向 量 的 定义 
定义 1.9 如 果 X 和 了 是 定义 在 同一 概率 空间 (Q, 太 , P) 上 的 两 个 随机 变量 ， 称 
(X,Y) 为 二 维 随机 向 量 (random wvector), 并 称 和 了 是 二 维 随 机 向 量 (X,Y) 
的 两 个 分 量 . 

二 维 随机 向 量 (X,Y) 是 定义 在 样本 空间 Q 上 , 取 值 于 R* 上 的 函数 . 类 似 ， 
可 定义 n 维 随机 向 量 . 
定义 1.10 设 QQ 为 样本 空间 ， Xi 二 Xi 2 二 (ww),…, X= 二 Xn(w) 是 0 
上 的 nn 个 随机 变量 ， 则 由 它们 构成 的 n 维 向 量 (XX ,XX2,…, Xn) 称 为 n 维 随 机 


向 量 (n 一 dimensional random vector), 称 Xi 为 六 的 第 i 个 分 量 (component). 





2. 随机 向 量 的 联合 分 布 函数 
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定义 1.11 设 (X,Y) 是 定义 在 (三 , 忆 ) 上 的 随机 向 量 ， 对 任意 的 (7,y) € 已 ， 
二 元 蚁 数 
F(z,Y) = P{o: X(w) < x,y(w) < Y), (1.44) 
称 为 (X,Y) 的 联合 分 布 函数 (joint distribution function), 其 中 {X <z,Y <v} 
表示 事件 {X < xX} 与 事件 {Y < vy} 的 积 事件 . 
设 Xi1, Xo,…, Xn 有 是 一 个 风 维 随机 向 量 ， 对 任意 的 (21 Yo, ,Tn) E RY,n 
F(xi1, T2277, Tn) = P{w: Xi(w) < zi, X2(w) < x2, 7, Xn(w) < zn,}, (1.45) 
称 为 (X11, XX2,……, Xn) 的 联合 分 布 池 数 . 
3. 分 布 函 数 的 性 质 
(1) 对 于 任意 固定 的 y, 当 za > zi 时， 了 (zo,y) 二 下 (zy). 对 于 任意 固定 的 
T, 当 名 > 4 时 ， 卫 (zx,y2) 二 了 (x,1), 即 (xz,y) 对 每 个 自 变 量 是 单调 不 减 的 . 
(2) 0 < F(z,y) < 1, 且 对 于 任意 固定 的 y, 了 (一 00,y) = 0. 对 于 任意 固定 的 
xz, F(z,—00) = 0, 下 (一 co 一 oo) = 0, 下 (十 co, 十 co) = 1 
(3) F(z,y) = F(T+0,9), Pr,Y) = P(r,Yy+0), MF(Y,Yy) 关于 z 右 连续 ， 
也 关于 y 右 连 续 . 
(4) 对 于 任意 (Zu 加)， (za yp) Zi < 272, Vi < 2%, 下 述 不 等 式 
F(x2,y2) — Fr2,y) — F(x,Yy2) + Fr,Y)>0 
由 以 上 性 质 可 得 以 下 结论 . 
随机 点 (X, 7) 落 在 矩形 域 {7X1 < < Xo,Yy1 < Y < y2} 内 的 概率 为 
P{zx1 <X Toy <Y <y} = Fr,Yy) — F(x2,y) — Fz,Y2) + F(T, Yi). 
(1.46) 
4. 离散 型 二 维 随 机 向 量 


定义 1.12 如 果 二 维 随机 向 量 (X,， 了 了) 的 每 个 分 量 都 是 离散 型 随机 变量 ， 则 称 
(XX, 了) 是 二 维 离散 型 随机 向 量 ， 
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定义 1.13 设 二 维 离散 型 随机 向 量 (X, Y) 所 有 的 可 能 取 值 为 (Zi Yj), 1 一 1,2, Py 
j 二 1,2,.… 的 概率 为 : 








P{X Vi, 和 Yj} Pij; 1,7 = 1, 2, 机 (1.47) 


则 称 式 (1.47) 为 离散 型 随机 向 量 (X,Y) 的 分 布 律 (联合 分 布 律 ). 
(1) Pij 2 0， 2 了 = 1 .25 7 
(2) 2% 2 Dy = 
i J 
离散 型 随机 向 量 (X,Y》) 的 分 布 浮 数 为 : 
F(z,Y) 二 >， Dij, vr,y ER. 
Ti<TYyi<Y 
5. 连续 型 二 维 随机 向 量 


定义 1.14 如 果 对 于 二 维 随机 向 量 (X,Y) 的 分 布 函数 已 (z, 儿 ,存在 非 负 的 函数 
f(z,y), 使 对 于 任意 的 Z,y 有 


F(x,y) = a 人 f (u,v) du dv, (1.48) 

则 称 (X,Y) 是 连续 型 的 二 维 随 机 向 量 ， 函 数 f(x,y) 称 为 二 维 随机 向 量 (X,Y) 
的 概率 密度 函数 . 

概率 密度 函数 有 如 下 性 质 : 

(1) f(x,y) > 0,vz,yeR; 

十 co /十 co 
o / f(ry) drdy = F(to0, +00)=1; 
(3) 在 f(x,y) 的 连续 点 处 有 


DZ,gy) 
OxoOvy 





= f(z,Y); 
(4) 随机 点 (X,Y) 落 在 平面 区 域 G 内 的 概率 为 
P{(X,Y) EG}= /Aco)dzrdy. 
1 
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6. 边缘 分 布 
X,Y 的 边缘 分 布 (marginal distribution) 函数 分 别 是 


Fx(7) 
Fy(y) 


P{X <zxz}= P{X<z,Y <+o00}= F(x,+00), (1.49) 
P{Y <y}= P{X <+o,Y <y}= F(t+00,Yy). (1.50) 


者 (X,Y》) 为 离散 型 随机 向 量 ， XX 与 了 的 边缘 分 布 律 及 边缘 分 布 函数 分 别 


为 
全 (1.51) 
j=1 

P{Y = y;} 2 Dy = ps j= 1,2,.…, (1.52) 
Fx(x) = F(zx,+00)= > > (1.53) 

Xi<x y=1 
Fy(y). = (Ho07Y) Es (1.54) 

i=1 y;<y 


者 (X,Y) 为 连续 型 随机 向 量 ， XX 和 了 的 边缘 概率 密度 分 别 为 : 


tw) = {fea (1.55) 
hg = {fla (1.50) 

其 边缘 分 布 函 数 分 别 为 
Fe) = Px <o= [frowavlar= 太 mount 


7. 常见 二 维 随机 向 量 的 分 布 
(1) 二 维 均匀 分 布 
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若 (X,Y) 具有 如 下 概率 密度 函数 


ye z， eD, 
i (9) 
0， 其 它 . 


其 中 4 为 平面 区 域 D 的 面积 值 ， 则 称 此 二 维 连 续 型 随机 向 量 (X,Y) 在 区 域 D 
内 服从 二 维 均匀 分 布 . 

(2) 二 维 正 态 分 布 N(Ua, Ha 07, 03, 0) 

如 果 (X,Y) 具有 如 下 概率 密度 函数 

1 
jy) = JE 
2 2 

op{ -天 二 上 0 外 

一 co < 2 < 十 oo, 一 co <Y < 十 co. (1.60) 
其 中 jw, no, ol > 0, os > 0, |p| < 1 为 实数 ， 则 称 此 二 维 连续 型 随机 向 量 (X,Y) 
服从 参数 为 jw, 12, at 02,p 的 二 维 正 态 分 布 ， 记 作 (X,Y) ~ NO 42, 07,03, 7p); 
同时 称 (X,Y) 为 二 维 正 态 随机 向 量 . 

图 1.6 绘 出 了 p 取 不 同 值 的 情况 ， 在 图 中 ja = 0, pa = 0,01=1,02=2. 
当 p = 0 时 ， 随 机 变量 X 与 随机 变量 Y 是 独立 的 ， 当 p 关 0 时 ， 随 机 变量 X 与 
随机 变量 Y 相关 (不 独立 ), 并 且 当 |p| 越 接近 1 时 ， 相 关 程 度 越 密切 . 








1.3 ”随机 变量 的 数字 特征 
1.3.1 ”数学 期 望 


定义 1.15 设 离散 型 随机 变量 X 的 分 布 律 为 P{X = Zi = pi, i 二 1,2,.…, 车 级 
数 2 ,|zilpi 收敛 ,， 则 称 级 数 > Tipi 的 和 为 随机 变量 六 的 数学 期 望 (mathematical 
expectation), 记 为 B( 关 ), 即 








E(X) = 2 Yip (1.61) 


设 连续 型 随机 变量 X 的 概率 密度 函数 为 1(7), 车 积分 |z|f(z)dzx 收敛 ， 则 
称 积分 厂 zjJ(z)dz 的 值 为 随机 变量 X 的 数学 期 望 ， 记 为 妃 (X)， 即 


B00)=/ flan (1.62) 
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图 1.6: 二 维 正 态 分 布 p 取 不 同 值 的 情况 
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(XX) 又 称 为 均值 (mean). 

数学 期 望 代表 了 随机 变量 取 值 的 平均 值 ， 是 一 个 重要 的 数字 特征 . 数学 期 户 
具有 如 下 性 质 : 

(1) 者 < 是 常数 ， 则 B(c) = 6 

(2) (aX +bY) = aE(X)+bE(Y), 其 中 a,b 为 任意 常数 ， 

(3) 若 X,Y 相互 独立 ,， 则 BE(XY) = E(X)E(Y). 

从 数学 期 望 的 意义 (平均 值 ), 很 容易 理解 上 述 3 条 性 质 的 意义 . 

如 果 XX ,Xo2,……,X 是 n 个 随机 变量 ， 反 复 运 用 性 质 (2), 得 到 


五 区 a] = a (1.63) 


其 中 ai(i = 1,2,..…,n) 是 常数 ， 


1.3.2 ”方差 


定义 1.16 设 X 为 随机 变量 , 如 果 马 {[X 一 忆 (X)]?} 存在 , 则 称 互 {[ 和 一 已 (X) 全 
为 处 的 方差 (variance), 记 为 Var( 关 ), 即 


Var(X)= E{[X— E(X)]}, (1.64) 


并 称 VVar(X) 为 X 的 标准 差 (standard deviation) 或 均 方差 (root mean square). 

方差 是 用 来 描述 随机 变量 取 值 相对 于 均值 的 离散 程度 的 一 个 量 , 也 是 非常 重 
要 的 数字 特征 . 方差 有 如 下 性 质 : 

(1) 和 若 < 是 常数 ， 则 Var(c) = 0; 

(2) Var(aX 二 中 =aVar(X), 其 中 op 为 任意 常数 ; 

(3) 如 果 X,Y 相互 独立 ， 则 Var(X 十 Y) =Var(X) 二 Var(Y). 

从 方差 的 意义 (离散 程度 ), 很 容易 理解 这 3 条 性 质 的 意义 . 

可 以 证 明 : 

Var(X) = E(X’*)— [EB(X)]. (1.65) 


式 (1.65) 可 作为 方差 的 计算 公式 . 


1.3 随机 变量 的 数字 特征 
1.3.3 ” 几 种 常用 随机 变量 分 布 的 期 望 与 方差 
(1) 若 X 服从 参数 为 p 的 两 点 分 布 B(1,p), 其 中 0<p<1, 则 
E(X)=p, Var(X)=p(1—p). 
(2) 若 X 服从 参数 为 几 2 的 二 项 分 布 B(n,p), 0<p<1, 则 
E(X)=np, Var(X)=np(1—p). 

(3) 若 X 服从 参数 为 和 的 Poisson 分 布 P(A), 则 

E(X)=M, Var(X)=A. 


(4) 大 六 服从 参数 为 a,b 的 均匀 分 布 Ca, 中 则 


0b—o) 
i 


_a+t+b 
Se 








E(X) Var(X)= 


(5) 者 X 服从 参数 为 和 的 指数 分 布 ， 则 
E(X)= >, Var(X)= 广 
(6) 若 X 服从 参数 为 上 ,oa 的 正 态 分 布 N(1,o”), 则 


E(X)=h, Var(X)=02. 
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(1.66) 


(1.67) 


(1.68) 


(1.69) 


(1.70) 


(1.71) 


由 式 (1.71), 以 及 期 望 和 方差 的 意义 ， 可 以 进一步 帮助 我 们 理解 图 1.2 的 意义 . 


1.3.4 ” 协 方 差 与 相关 系数 
1. 协 方 差 


设 X,Y 为 两 个 随机 变量 , 称 B{|X 一 EB(X)][Y 一 B(Y)} 为 X 和 YY 的 协 方 


差 (covariance), 记 为 Cov(X,Y), 即 


Cov(X,Y) = E{[X — E(X)[Y ~ E(Y)}. 


(1.72) 


协 方 差 和 下 面 介绍 的 相关 系数 都 是 描述 随机 变量 X 与 随机 变量 Y 之 间 的 线性 


联系 程度 的 数字 量 . 
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协 方差 具有 如 下 基本 性 质 : 
(1) Cov(X,Y)= Cov(Y,X); 
(2) Cov(aX + b,cY + d) = acCov(X,Y), 其 中 a,b,c,d 为 任意 常数 ; 
(3) Cov(Xi+ X»,Y)= Cov(Xi1,Y) + Cov(X»,Y); 
(4) CovCC TY) = E(XY) BE(X)E(Y), 特别 地 ， 当 X 和 了 相互 独立 时 ， 有 
Cov(X,Y) = 0; 
(5) |Cov(X, Y)| < VVar(X)VVar( 
(6) Cov(X,X)= Var(X). 
如 果 Xi XX2,… ,Xn 是 n 个 随机 变量 ， 利 用 上 述 性 质 得 到 


Var (> oj 三 二 | (1.73) 
i=1 


i=1 j=1 


其 中 ai(i = 1,2,…,n) 是 常数 ， 如果 Xi(i = 1,2,…,n) 是 mn 个 相互 独立 的 随机 
变量 ， 则 式 (1.73) 可 改写 为 


Var > a] 二 > a2 Var(X;). (1.74) 
2. 相关 系数 
当 Var(X) > 0, Var(Y) > 0 时 ， 称 
Cov(X,Y) 
PY) 一 AR 











为 和 与 了 的 相关 系数 (coefficient of correlation), 它 是 无 量 纲 的 量 . 其 基本 性 质 
为 : 

(1) |p(X,Y)| < 1; |p(X,Y 了 )| = 1 的 充 要 条 件 为 X 与 了 之 间 有 线性 关系 ， 
即 存 在 常数 a,b (a 关 0) 使 得 
P{Y =aX+0}=1. 


具体 地 a > 0 时 ， 对 应 p(X, 了 = 1;a <0 时 ， 对 应 p(X,Y) = 一 1. 
(2) 车站 与 Y 相互 独立 且 Var(X), Var(Y) 存在 , 则 p(CX, Y) = 0; 特别 地 当 
X 与 Y 均 为 正 态 分 布 时 ， X 与 Y 相互 独立 的 充 要 条 件 为 p(X,Y) = 0. 
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对 于 二 维 正 态 随机 变量 X, 六 其 密度 函数 (1.60) 中 的 pi 表示 X 的 均值 ， 
2 表示 了 的 均值 ， ci 表示 X 的 方差 ， 03 表示 了 的 方差 ，p 表示 X 与 了 的 
相关 系数 . 这 就 是 为 什么 在 图 1.6 中 ， 当 |p| 越 接 近 于 1 时 ， 其 图 形 越 瘤 . 


1.3.5 ”和 矩 与 协 方差 矩阵 


1. 和 矩 
设 随 机 变量 X 有 分 布 函数 (zx), 对 任意 给 定 的 正 整 数 , 若 (|X|*) 存在 ， 
则 称 本 
ok 一 五 (X?) 3 redF (zx) (1.76) 


一 De 


为 X 的 让 阶 原点 矩 (moment about origin). 对 于 有 > 1, 车 召 (|1XI*) 存在 ， 则 称 
mr=B(K-EOON= 人 Ce-PCO)arg (L77) 


为 和 的 大 阶 中 心 矩 (moment about centre). 

窍 是 广泛 应 用 的 一 类 数字 特征 , 均值 与 方差 分 别 就 是 一 阶 原点 矩 和 二 阶 中 心 
矩 . 

设 分 布 函数 (x) 有 中 心 逢 jw2 = EB(X 一 BB(X))2, 13 = B(X 一 忆 (X))3, 则 称 
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为 偏 度 系数 (coefficient of skewness). 

偏 度 系数 是 一 个 无 量 纲 的 量 , 它 刻 划分 布 函 数 的 对 称 性 . 当 Cs > 0 时 ,F(x) 
所 表示 的 概率 分 布 偏向 均值 的 右 侧 ， 反 之 则 偏向 左 侧 . 

设 分 布 函数 F(z) 有 中 心 害 jw2 = E(X 一 B(X))”, ja4 = 忆 (X 一 B(X))”, 则 称 


C4 = a/12—3 (1.79) 


为 峰 度 系数 (kurtosis). 
峰 度 系数 是 一 个 无 量 纲 的 量 ， 它 刻 划 不 同类 型 的 分 布 的 集中 和 分 散 程度 . 
设 随 机 变量 X 有 均值 /4 和 方差 o?, 则 称 


X*= (X—h)/o (1.80) 
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为 标准 化 随机 变量 . 
2. 协 方差 矩阵 
设 ,二 (X1， 及 2， i ,XX,)， Y= (¥, 了 Y2， 上 Yn) 为 两 个 随机 变量 ， 则 称 
Cov(X,Y) = (0i;)nxm 


为 XX 与 Y 的 协 方差 阵 (covariance matrix), 其 中 oj = Cov(Xi,Y),i= 1,2,.… 


J 
n, j=1,2,.…,m. 


协 方差 阵 具 有 如 下 性 质 : 

(1) Cov(X,Y) = Cov(Y, X). 

(2) Cov(4X 十 b,Y) = ACov(X,Y7), 其 中 4 是 算 阵 ，5 是 向 量 . 
(3) Cov(X +Y,2)= Cov(X,Z)+ Cov(Y, 2). 





设 X = (Xi1,X2,… ,Xn) 为 随机 变量 ， 则 称 
Var(X)= Cov(X,X)= (0i;)nxn 


为 的 方差 阵 (variance matrix), 也 称 为 方差 - 协 方 差 矩阵 (variance-covariance 
matrix), 其 中 0ij 二 Cov (Xi Xj)， 4,7 一 1, 2, 人 


方差 矩阵 具有 如 下 人 性质: 
(1) Var(X) 半 正 定 ， 即 Ya € R", 有 


azVar(X)a > 0. 


(2)vVa€ R", 有 
Var(a7X) = a’ Var(X)a. 


(3)v A € Rixn, 有 
Var(AX) = AVar(X)A’. 


(4) Var(X) = 0 的 充分 必要 条 件 是 ， 了 ae R", ce RR', 使 得 





alX= 人 ce. 
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有 了 协 方差 矩阵 的 概念 ， ?m 维 正 态 随机 向 量 的 概率 密度 函数 的 表示 就 变 得 
容易 了 . nn 维 正 态 随机 向 量 X = (Xi X2,…, Xn) 的 概率 密度 函数 为 
Pe J 
[Oe TE 0 
其 中 了 一 (£1, Z2， 0 和 HH 二 (HU Na， 生字 Hn) (E(X1), E(X2), BE(Xn))", 
二 Var(X) 为 n xn 阶 协 方差 逢 阵 且 正定 . 
二 维 正 态 随机 变量 的 密度 函数 (1.60) 可 以 看 成 n 维 正 态 随 机 向 量 概率 密度 
函数 (1.81) 的 特例 ， 其 中 协 方差 矩阵 间 为 


| of | 
= 。 | . 
pO102 O05 


对 于 ?7 维 正 态 随 机 疝 量 (Xi 2,…, Xn), 有 如 下 的 性 质 : 

(1) Xl， Xs, A Xn 相互 独立 与 Xi1, Xs, Xn 两 两 互 不 相关 等 价 ; 

(2) 设 六 ,3,… ,Yn 均 是 1, 六,… ,Xn 的 线性 函数 ， 则 (六, 了 %,…, Yn) 服 
从 m 维 正 态 分 布 ， 该 性 质 称 为 正 态 分 布 的 线性 变换 不 变性 . 

3. 相关 和 矩阵 

设 X = (Xi XXX) 为 随机 变量 ， 则 称 

Cor(X)= (Pij)nxn 

为 X 的 相关 矩阵 (correlation matrix), 其 中 pi; = Cor( Xi Xj), 1,7 = 1,2,.…,n. 

相关 矩阵 具有 如 下 性 质 : 

(1) Cor(X) 为 对 角 线 元 素 均 为 1 的 半 正 定 对 称 惩 阵 . 

(2) 设 史 = (cojwn 为 方差 矩阵 ， DD = diag ( 叶 ,o 吉 co 加 ), 风 


Cor(X) = D-15D-1. 
1.4 ”极限 定理 
极限 定理 是 概率 论 的 基本 定理 之 一 , 在 概率 论 和 数理 统计 的 理论 研究 和 实际 


应 用 中 都 具有 重要 的 意义 . 在 极限 定理 中 ， 最 重要 的 是 ， 大 数 定律 和 中 心 极限 定 
理 . 
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1.4.1 “大 数 定律 
大 数 定律 是 判断 随机 变量 的 算术 平均 值 是 否 向 常数 收敛 的 定律 , 是 概率 论 和 
数理 统计 学 的 基本 定律 之 一 . 
定义 1.17 设 X1, X,, 3 ,Xx， a 是 随机 变量 序列 且 E(X:) 存在 (K 去 1,2, ), 
令 二 二 DXi, 若 对 于 任意 给 定 的 = > 0, 有 
k=1 
lim P{|Y% = E(Y%)| > e} = 0, 
或 
lim P{|Y, — E(Yn)| < e} =1, 
则 称 随机 变量 序列 {Xn} 服从 大 数 定律 . 
关于 大 数 定律 有 : 
1. Bernoulli 大 数 定律 
设 "4 是 n 次 独立 重复 试验 中 事件 4 发 生 的 次 数 ，p 是 事件 4 在 每 次 试验 
中 发 生 的 概率 ， 则 对 于 任意 的 正 数 = > 0, 有 


lim P{| -p<e}=1. 
n 


Bernoulli 大 数 定律 揭示 了 “频率 稳定 于 概率 ”说 法 的 实质 . 


2. Chebyshev( 切 比 雪 夫 ) 大 数 定律 


设 随 机 变量 XI，X2，:….，Xh,.…… 相互 独立 ， 且 具有 相同 的 期 望 与 方差 : 
EB(Xk) = 1, Var( Xr) = o* (k= 1,2,.…-), 则 对 于 任意 的 正 数 。 > 0, 有 





lim P{|Yh,—4| <e}=1. 


3. Khintchin( 辛 钦 ) 大 数 定律 


lim P{|Y,—4| <e}=1. 
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知 对 随机 变量 序列 XX!，X2,，……, Xk,……, 存在 常数 a, 使 得 对 于 任意 的 正 数 
ze>>0, 有 

lim P{ 一 ol <e}=1, 
或 

lim P{|Xn —al > e}=0) 
成 立 ， 则 称 X。 依 概率 收敛 于 a, 记 作 X。 一 > a. 故 上 面 的 Chebyshev 大 数 定律 
与 Khintchin 大 数 定 律 有 


= LL bp et 几 ， 
人 
对 于 大 数 定律 ， 有 如 下 定理 . 


定理 1.2 设 随机 变量 X 具有 期 望 (XX) = 1 方差 Var(X) = ao 则 对 于 任意 
E>0, 有 





全 
(oa 
P{IX-H>e} < (1.82) 


称 定 理 1.2 中 的 不 等 式 (1.82) 为 Chebyshev 不 等 式 ， 它 是 一 个 重要 的 理论 
工具 ， 应 用 很 广 . 例如， 在 有 关 大 数 定律 的 证 明 中 常用 到 它 . 
1.4.2 中心 极 限定 理 

中 心 极限 定理 是 判断 随机 变量 序列 部 分 和 的 分 布 是 否 渐 近 于 正 态 分 布 的 一 
类 定理 . 在 自然 界 及 生产 、 科 学 实践 中 ， 一 些 现 象 受 到 许多 相互 独立 的 随机 因素 
的 影响 ,如 果 每 个 因素 的 影响 都 很 小 ,那么 总 的 影响 可 以 看 作 是 服从 正 态 分 布 . 
中 心 极限 定理 正 是 从 数学 上 论证 了 这 一 现象 . 
定义 1.18 凡是 在 一 定 条 件 下 ， 断 定 随机 变量 序列 Xi Xo2 ,Xi … 的 部 分 和 
久 = 六 的 权限 分 布 为 正直 分布 的 定理 es 

有 两 个 最 著名 的 中 心 极 限定 理 . 

1. 独立 同 分 布 的 中 心 极限 定理 
方差 : 五 (Xp) 二 /， Var( Xp) Es 0? > 0， k= 1,2, 2 则 随机 变量 
> Xk — nn 


Vno 
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的 分 布 函数 玉 (z) 收敛 到 标准 正 态 分 布 函 数 ， 即 对 于 任意 实数 x, 有 
Jim F(z) = lim P{Y, < ¢} = &(2), 
其 中 es 
记 | at 
从 中 心 极限 定理 可 知 ， 当 n 足够 大 时 ， 次 近似 服从 标准 正 态 分 布 N(0, 1)， 
这 在 数理 统计 中 有 非常 重要 的 应 用 . 
2. De Moivre 一 Laplace ( 棣 莫 佛 - 拉 普 ji 中 心 极限 定理 


则 对 于 任意 实数 x, 有 


(2) = 


2 Xi—np 
lim P 一- < = 6(). 
人 np(1— 2p) 


加 Xi 服从 二 项 分 布 B(n,p). 从 De Moivre - Laplace 中 心 极限 定理 可 知 ， 


当 n 足够 大 时 ， B(n,p) 近似 于 正 态 分 布 . 它 是 独立 同 分 布 的 中 心 极限 定理 的 特 
殊 情况 . 





1.5 数理 统计 的 基本 概念 


前 几 节 简单 介绍 了 概率 论 的 基本 内 容 , 在 概率 论 中 , 一般 是 在 随机 变量 分 布 
已 知 的 情况 下 ， 着 重 讨论 随机 变量 的 性 质 . 但 是 对 茶 个 具体 的 随机 变量 来 说 ， 如 
何 判断 它 服 从 某 种 分 布 ? 如果 已 知 它 服从 茶 种 类 型 的 分 布 又 该 如 何 确 定 它 的 各 
个 参数 ? 对 于 这 些 问题 概率 论 都 没有 涉及 到 ， 这 些 都 是 数理 统计 所 要 研究 的 内 
容 ， 并 且 这 些 问题 的 研究 都 直接 或 间接 建立 在 试验 的 基础 上 , 数理 统计 学 是 利用 
概率 论 的 理论 对 所 要 研究 的 随机 现象 进行 多 次 的 观察 或 试验 , 研究 如 何 合理 地 获 
得 数据 ， 如 何 对 所 获得 的 数据 进行 整理 、 分 析 ， 如 何 对 所 关心 的 问题 作出 估计 或 
判断 的 一 门 学 科 ， 其 内容 非常 丰富 . 

下 面 给 出 数理 统计 的 基本 概念 ， 有 关 数 理 统计 的 各 种 方法 和 相应 的 R 软件 
实现 将 在 后 续 的 各 章 中 予以 讨论 . 
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1.5.1 总体、 个体 、 简 单 随机 样本 


在 数理 统计 中 ， 称 研究 对 象 的 全 体 为 总 体 (population), 通常 用 一 个 随机 变 
量 表示 总 体 ， 组 成 总 体 的 每 个 基本 单元 叫 个 体 (individuals). 

从 总 体 X 中 随机 抽取 一 部 分 个 体 XXX 称 XI X2，……， Xn 为 取 
自 X 的 容量 为 ”的 样本 (sample). 

例如 ,为 了 研究 某 厂 生 产 的 一 批 元 件 质量 的 好 坏 ， 规定 使 用 寿命 低 于 1 干 小 
时 的 为 次 品 ， 则 该 批 元 件 的 全 体 就 为 总 体 ， 每 个 元 件 就 是 个 体 . 实际 上 ， 数 理 统 
计 学 中 的 总 体 是 指 与 总 体 相 联系 的 茶 个 (或 某 几 个 ) 数量 指标 X 取 值 的 全 体 . 比 
如 ， 该 批 元 件 的 使 用 寿命 X 的 取 值 全 体 就 是 研究 对 象 的 总 体 ， 显然 X 是 随机 变 
量 ， 这 时 ， 就 称 X 为 总 体 . 

为 了 判断 该 批 元 件 的 次 品 率 ， 最 精确 的 办 法 是 取出 全 部 元 件 ， 对 作 元 件 的 寿 
命 试验 . 然而 , 寿命 试验 具有 破坏 性 , 即使 菜 些 试验 是 非 破 坏 性 的 , 试验 也 要 要 花 
费 人 力 、 物力、 时 间 , 因此 只 能 从 总 体 中 抽取 一 部 分 , 比如 说 ”个 个 体 进行 试验 ， 
试验 结果 可 得 组 数值 集合 {zt x2,…, zn}, 其 中 每 个 x; 是 第 i 次 抽样 观察 的 结 
果 . 由 于 要 根据 这 些 观察 结果 来 对 总 体 进 行 推断 ， 所 以 对 每 次 抽样 就 需要 有 一 定 
的 要 求 , 要 求 每 次 抽取 必须 是 随机 的 、 独立 的 , 这 样 才 能 较 好 地 反映 总 体 情 况 . 所 
谓 随机 的 是 指 每 个 个 体 被 抽 到 的 机 会 是 均等 的 , 这 样 抽 到 的 个 体 才 具 有 代表 性 
若 Xi XX2,.… ,Xn 相互 独立 ， 且 每 个 X; 与 同 分 布 ， 则 称 Xi X2,.… ,Xn 为 简 
单 随机 样本 (simple random sample), 简称 样本 . 通常 把 ” 称 为 样本 容量 (sample 
size). 

值得 注意 的 是 ， 样 本 具有 两 重 性 ， 即 当 在 一 次 具体 地 抽样 后 它 是 一 组 确定 
的 数值 ,但 在 一 般 叙述 中 样本 也 是 一 组 随机 变量 ， 因 为 抽样 是 随机 的 . 今后 ， 用 
Xi XX,… ,Xn 表示 随机 样本 ， 它 们 取 到 的 值 记 为 zt x2,…, zn, 称 为 样本 观测 
值 (sample value). 

样本 作为 随机 变量 , 有 一 定 的 概率 分 布 , 这 个 概率 分 布 称 为 样本 分 布 . 显然 ， 
样本 分 布 取 决 于 总 体 的 性 质 和 样本 的 性 质 . 

总 体 X 具有 分 布 函数 F(z), 则 (Xi XX2,……, Xn) 的 联合 概率 分 布 函数 为 

















F(X1, Xa Xn) = [Fi). 
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奉 羡 具有 概率 密度 函数 f(z), 则 (Xi1, Xo,……, Xn) 的 联合 概率 密度 为 


f(X1, Xa Xn) = | fz) 
2 一 | 
例 1.5 要 估计 一 物体 的 重量 a, 用 天 平 将 物体 重复 测量 n 次， 结果 记 为 X1, Xo， 
…， Xn, 求 样本 (XX1, XX2，,*…, Xn) 的 分 布 . 

解 : 假定 各 次 测量 是 相互 独立 ， 即 Xi, X2,.…, Xn 为 一 简单 随机 样本 ， 再 假 
定 测量 的 随机 误差 服从 正 态 分 布 , 天 平 没有 系统 误差 . 因此 随机 误差 的 均值 为 0， 
于 是 总 体 的 概率 分 布 可 假定 为 N(a,o”), 其 中 a 为 物体 之 重量 ， o? 反映 天 平 的 
精度 故 (Xi X2，…Xn) 的 概率 密度 为 


本 1 
2 二 | | .oy 
f(z1, Za , Tn; a, ) 二 二 DR op 人 -地 (2 a) } 


二 Fo {- 直 | 


i 二 1 





例 1.6 设 某 电 子 元 件 的 寿命 X 从 指数 分 布 


和 ez，2>0， 
Vs 
0, 2Z < 0， 
今 从 一 批 产 品 中 独立 地 柏 取 n 件 进行 奉命 试验 , 测 得 奉命 数据 为 XX1, XX2，……… ,Xn， 
求 样本 (Xi1, 从 2， 0 Xn) 的 概率 分 布 . 
概率 密度 为 


f(r a eA) .| | 7 (eA 
i=1 


| Mexp {a ]， ZT1, 272 mn 之 0, 
;三 二 


0， 其 它 ， 
1.5.2 ”参数 空间 与 分 布 族 


在 例 1.5 中 总 体 分 布 为 N(a,o°), 其 中 4 与 o? 是 确定 分 布 的 常数 . 例 1.6 中 
总 体 分 布 为 指数 分 布 f(x, 入 ), 入 也 是 确定 分 布 的 常数 .在 数理 统计 中 ， 称 出 现在 
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样本 分 布 中 的 常数 为 参数 (parameter), 因此 ， a, o? 和 和 都 是 参数 ,这些 参数 
是 关于 总 体 的 重要 的 数量 指标 ， 然 而 ， 这 些 参 数 往往 是 未 知 的 ， 称 为 未 知 参 数 . 
在 例 1.5 中 ， a 是 未 知 参数 ， 而 c ”是否 为 未 知 参数 要 看 人 们 对 天 平 精 度 的 了 
解 程度 ， 若 对 天 平 精度 足够 了 解 可 以 给 出 o” 的 值 ， 则 o? 就 是 已 知 参数 ， 若 对 
天 平 的 精度 不 够 了 解 ， 无 法 给 出 o? 的 值 ， 其 至 于 抽样 的 目的 就 是 要 估计 推断 这 
个 精度 ， 那 么 ，o? 就 是 未 知 参 数 ， 这 时 ， 称 (a, o2) 为 参数 向 量 . 参数 所 有 可 能 
的 取 值 构成 的 集合 称 为 参数 空间 .如 例 1.5 中 (a,o?) 都 是 参数 ， 则 参数 空间 为 
9 =={(a,0*) : a > 0,0o?>0}. 例 1.6 的 参数 空间 为 9 = {和 :入 >0}. 

当 样 本 分 布 含有 未 知 参数 时 ， 不 同 的 参数 值 对 应 于 不 同 的 分 布 , 因此 ， 可 能 
的 样本 不 止 一 个 ， 而 是 一 族 ， 则 称 为 样本 分 布 族 . 同样 ， 存 在 未 知 参 数 时 ， 总 体 
分 布 也 是 一 族 , 构成 总 体 分 布 族 . 例 1.5 中 , 若 w 和 o? 都 是 未 知 参 数 ， 则 总 体 分 
布 族 为 {N(a,o”) : a > 0,o? > 0}, 样本 分 布 族 为 {f(x1, 22,:…, Xn;4,0): a> 
0,o? > 0}. 在 例 1.6 中 , 若 入 是 未 知 的 ， 则 总 体 分 布 族 为 {f(zx, 入 ) : 入 > 0}, 样本 
分 布 族 为 {f(z1, x2,…… ,Tn, 入 ): 入 > 0}. 











1.5.3 ”统计 量 和 抽样 分 布 


数理 统计 的 任务 是 采集 和 处 理 带 有 随机 影响 的 数据 , 或 者 说 收集 样本 并 对 之 
进行 加 工 ， 以 此 对 所 研究 的 问题 作出 一 定 的 结论 ， 这 一 过 程 称 为 为 统计 推断 . 在 
统计 推断 中 ， 对 样本 进行 加 工整 理 ， 实 际 上 就 是 根据 样本 计算 出 一 些 量 ， 使 得 这 
些 量 能 够 将 所 研究 问题 的 信息 集中 起 来 . 这 种 根据 样本 计算 出 的 量 就 是 下 面 将 要 
定义 的 统计 量 ， 因 此 ， 统 计量 是 样本 的 某 种 函数 ， 
定义 1.19 设 Xi X2，…，Xn 是 总 体 六 的 一 个 简单 随机 样本 ， T(X1，X2，……， 
Xn) 为 一 个 n 元 连续 函数 ， 且 了 中 不 含 任 何 关于 总 体 的 未 知 参 数 ， 则 称 了 (XT1， 
Xo2，.…，Xn) 为 一 个 统计 量 (stalistic)， 称 统计 量 的 分 布 为 抽样 分 布 (sampling 


distribution). 





1. 常用 的 统计 量 
(1) 样本 均值 
设 Xi X2,.…, Xn 是 总 体 X 的 一 个 简单 随机 样本 ， 称 


全 
和 = 二 》 xX (1.83) 
7 
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为 样本 均值 (sample mean). 通常 用 样本 均值 来 估计 总 体 分 布 的 均值 和 对 有 关 总 
体 分 布 均值 的 假设 作 检 验 . 

(2) 样本 方差 

设 Xi X2,… ,Xn 是 总 体 X 的 一 个 简单 随机 样本 ， X 为 样本 均值 ， 称 


也 


| (1.84) 


为 样本 方差 (sample variance). 通常 用 样本 方差 来 估计 总 体 分布 的 方差 和 对 有 关 
总 体 分 布 均值 或 方差 的 假设 作 检验 . 

(3) 上 阶 样本 原点 矩 

设 Xi X2,.…, Xn 是 总 体 X 的 一 个 简单 随机 样本 ， 称 


= lo xt (1.85) 
1 i=1 








样本 的 阶 原点 矩 ， 通常 用 样本 的 阶 原点 窍 来 佑 计 总 体 分 布 的 上 阶 原点 窍 ， 
(有 阶 样本 中 心算 
设 Xi XX2,…,X 是 总 体 的 一 个 简单 随机 样本 ， X 为 样本 均值 ， 称 


nN 


Mi = =》、 (二 (1.86) 


?= 
样本 的 大 阶 中 心 矩 ， 通 常用 样本 的 大 阶 中 心 矩 来 估计 总 体 分 布 的 有 阶 中 心 矩 . 
(5) 顺序 统计 量 
设 Xi X2, ……， Xn 是 抽 自 总 体 X 的 样本 ， zi, z2，……， zn 为 样本 观测 值 ， 
将 Zu XZ2，,…, zn 按照 从 小 到 大 的 顺序 排列 为 


20) < X02) 1 < Tn), 


当 样 本 Xi XX2, …, Xn 取 值 为 Zi 22,…, Xn 时， 定义 X(x) 取 值 为 ZO (k = 
1,2,…,n), 称 Xo),， X02 Xn) 为 XX，X2,，……， Xn ee (order 
statistic) . 

显然 ，X() = min {Xi} 是 样本 观测 中 取 值 最 小 的 一 个 ， 称 为 最 小 顺序 统计 
量 (smallest order statistic)，X = max {Xi} 是 样本 观测 中 取 值 最 大 的 一 个 ， 
称 为 最 大 顺序 统计 量 (largest order 称 X(;) 为 第 7 个 顺序 统计 量 . 
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(6) 经 验 分 布 函数 


设 Xi XX2,…, Xn 是 抽 目 总体 X 的 样本 ，X ~ Fz), 则 称 
F(z) = 二 K(o) 二 (1.87) 


为 经 验 分 布 函数 (expirical distribution), 其 中 K(x) 表示 六 1, Xo, …, X 中 不 大 
于 z 的 个 数 . 
经 验 分 布 函数 也 可 以 表示 成 





0， 2 < Xi)， 
Fn(z) = £, Xn < F< Xt) (1.88) 


n) 


1, ge X(n) 


有 (7Z) 是 一 个 跳跃 函数 , 其 跳跃 点 是 样本 观测 值 . 在 每 个 跳跃 点 处 跳跃 度 均 为 1/n. 
图 1.7 所 示 的 是 n == 10, 抽 目 总 体 和 (0,1) 的 经 验 分 布 函数 和 N(0, 1) 的 总 
体 分 布 函数 图 . 
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图 1.7: 经 验 分 布 和 总 体 分 布 
对 于 经 验 分 布 函数 有 以 下 结果 ( Glivenko ( 格 里 文科 ) 1933 年 证 明 ) 


| lim sup |F(z)— F(z)|= 0 ~ (1.89) 


7 oo 一 co<Z<co 
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这 个 结果 表明 对 任意 的 实数 x 当 充分 大 时 ， 经 验 分 布 函数 与 总 体 分 布 函数 的 
差异 很 小 ， 因 此 ”充分 大 时 实际 上 可 用 所 (x) 近似 代替 F(zx). 


2. 常用 的 分 布 和 分 位 数 


(1) x 分布 
设 Xi XX2,…, Xn 是 来 自 总 体 N(0,1) 的 一 个 简单 样本 ， 则 称 统计 量 


Y= 了 二 XY 十 … 十 X2 (1.90) 


为 服从 自由 度 为 n 的 x? 分 布 (chi-square distribution), 记 为 了 ~ x*(n). 图 1.8 


04 T 























图 1.8: Xx? 分 布 密 度 函 数 曲 线 


给 出 了 n=1、n==4 和 n= 10 的 x 分布 密度 函数 曲线 . 

从 图 1.8 可 以 看 出 ， x 分 布 密度 函数 曲线 的 峰值 偏 左 ， 其 偏 度 系数 C。 为 
正 . 当 ? 越 小 时 ， 密 度 曲 线 越 陡 峭 ， 其 峰 度 系数 Ci 就 越 大 ; 当 n 越 大 时 ， 曲 线 
越 平 坦 ， 其 峰 度 系数 C4 就 越 小 . 

车 对 于 给 定 的 a, 0 < a < 1, 存在 xz(n) 使 


P{X > xa(n)} = a, 


则 称 点 Xa(p) 为 x 分 布 的 上 a 分 位 点 图 1.9 所 示 的 是 n= 5 a=01 的 和 
分 布 的 上 a 分 位 点 xa(n). 
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图 1.9: x 分 布 的 上 a 分 位 点 


Xx” 分 布 具有 如 下 性 质 . 

Qi) 可 加 性 . 设 页 ~ 之 (m), 和 » ~ x(m), 且 两 者 相互 独立 ， 则 半 二 总 六 
X m+n). 

Qi 期 望 值 与 方差 . 者 ~ Xx?(n), 则 EE(Y) =n, Var(Y) = 2n. 








(2) t 分布 
设 关 ~N(0,1),Y ~X*(n), 且 X,Y 相互 独立 ， 则 称 随 机 变量 
4 
gp (1.91) 


为 服从 自由 度 为 nn 的 t 分 布 (t-distribution), 记 为 T~t(n). 
图 1.10 给 出 Tn=1、n 二 2、n 二 5 和 n== 0% 的 t 分 布 密度 函数 曲线 . 
从 图 1.10 可 以 看 出 ， 上 分布 是 对 称 分 布 ， 其 偏 度 系数 Cs 为 0. n 越 小 ， 其 
峰 度 系数 Ci 越 大 ，n 越 大 ， 其 峰 度 系数 Ci 越 小 . 
若 对 于 给 定 的 a, 0 < a < 1, 称 满足 


P{T > ta(n)} = a, 


的 点 ta(n) 为 t+ 分 布 的 上 a 分 位 点 图 1.11 所 示 的 是 n= 5, a = 0.1 的 t 分 布 
的 上 a 分 位 点 ta(n). 
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图 1.11: t 分布 的 上 a 分 位 点 


由 于 分布 的 概率 密度 函数 f(t) 是 偶 函 数 ， 即 f(t) = f(t), 关于 t= 二 0 对 
称 ， 因 此 对 一 切 mw 有 EE(T) = 0. 并 且 


f(t)dt=1—a, 
—tn(a) 


所 以 ti_a(n) 二 —ta(n). 
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(3) 厂 分 布 
设 X~ Oo) 工 ~ om 且 X 和 了 相互 独立 ， 则 称 随 机 变量 
_X/n 
3 (1.92) 


为 服从 自由 度 为 (n,m) 的 下 分 布 (F-distribution), 称 n 为 第 一 自由 度 ，m 为 第 
二 自由 度 ,， 记 为 了 ~ 了 了 (n,m). 

图 1.12 所 示 的 是 n= 5, m= 20,n=7,m= 20,n= 20,m= 20,n = 20, 
m 二 2 和 n= 20, m= 二 7 的 了 分 布 密度 函数 曲线 . 























图 1.12: 分 布 密度 函数 曲线 


者 对 于 给 定 的 a, 0 < a < 1, 称 满足 
P{F > Fn,m)}= a, 


的 点 Fa(n,m) 为 下 分 布 的 上 a 分 位 点 ， 
图 1.13 所 示 的 是 n= 5, m= 8, a = 二 0.1 了 分布 的 上 a 分 位 点 Fo(n,m). 
分 布 具 有 如 下 性 质 : 
Gi) X ~ Fn,m), NI/X ~ Fm,n); 
(i) Fi_a(n, m) = 


) 设 XX~tn), 则 X? ~ FF(1,n). 
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图 1.13: 分 布 的 上 a 分 位 点 


1.5.4” 正 态 总 体 样本 均值 与 样本 方差 的 分 布 


设 X1, XX,…, Xn 是 来 自 于 正 态 总 体 N(1,o”) 的 样本 ， 又 ,932 分 别 为 样本 
均值 和 样本 方差 ， 则 有 
X—h 








FE GOD (1.93) 
一 二 (1.94) 

Xp jn 

5 万 t( 1), (1.95) 


且 革 与 52 相互 独立 . 
设 Xl， 入 2， “') Xn 与 7， Y2， ey Yr 分 别 是 来 自 于 正 态 总 体 VOL 07), 
N(12, 23) 的 样本 ， 且 这 两 样本 相互 独立 ， 则 有 


2 2 
和 N (nm-po +t 时) (1.96) 
nN Ns 


(X—Y)— (mk) 


2 2 
Co 
nl n2 


~ N(0,1). (1.97) 
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若 of=03=o02, 且 oo? 未知， 则 





CO 心太 出 填 科 二 2) (1.98) 


/1 1 
3 人 


(5 (1.99) 
ni 十 no 一 2 


X, 了 分 别 是 两 样本 的 均值 ， 5?, 53 分 别 是 两 样本 的 方差 . 


其 中 
92 = 


习题 一 


1.1 设 有 人 m 个 人 ， 每 个 人 部 以 相同 的 概 六 二 被 分 入 N 个 室 (N > mn) 中 任意 
一 个 室 中 去 住 ， 且 每 室 中 人 数 不 限 ， 并 允许 有 空 室 ， 求 ; 

(1) 某 指定 的 m 个 室 中 每 室 各 分 入 了 人 的 概率 

(2) 恰 有 m 个 室 ， 其 中 每 室 各 分 入 1 人 的 概率 ; 

(2 车 N=10,7m 二 6, 求 恰 有 两 人 分 入 同一 室 ( 即 恰 有 一 室 ， 其 中 恰 分 入 了 
两 个 人 ) 的 概率 . 
1.2 甲 、 乙 两 轮 驶 向 一 个 不 能 同时 停泊 两 轮 的 码头 ， 它 们 在 一 各 夜 内 到 达 的 时 
刻 是 等 可 能 的 . 设 甲 轮 的 停泊 时 间 是 7 了 小时， 乙 轮 的 停泊 时 间 是 2 小 时 ， 求 二 
轮 都 不 需 等 待 码头 空 出 的 概率 . 
1.3 一 批 产品 共有 20 件 ， 其 中 有 汪 件 次 品 ， 其 余 为 正品 . 现 依次 进行 不 放 回 机 
取 三 次 ， 求 : 

(1) 第 三 次 才 取 到 次 品 的 概率 ; 

(2) 在 第 一 、 第 二 次 取 到 正品 的 条 件 下 ， 第 三 次 取 到 次 品 的 概率 ; 

(3) 第 三 次 取 到 次 品 的 概率 . 
1.4 有 朋 自 远方 来 ， 他 乘 火 车 、 轮 船 、 汽 车 、 飞 机 来 的 概率 分 别 为 0.3, 0.2, 0.1， 
0.4. 如 果 他 乘 火车 、 轮 船 、 汽 车 、 飞 机 来 的 话 , 迟到 的 概率 分 别 为 1/4, 1/3, 1/12， 
而 乘 飞 机 则 不 会 迟到 ， 现 朋 友 迟 到 了 ， 问 他 是 乘 火车 来 的 概率 是 多 少 ? 
1.5 设 每 人 血清 中 含有 肝炎 病毒 的 概率 为 0.004, 随机 混合 100 人 的 血清 ， 求 此 
血清 中 含有 肝炎 病毒 的 概率 . 
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1.6 甲 、 忆 、 丙 三 门 高 射 炮 彼此 独立 地 向 同一 架 飞 机 射击 ,， 设 甲 、 乙 、 丙 炮 射 中 
飞机 的 概率 分 别 为 0.7, 0.8, 0.9. 

(1) 求 飞机 被 射 中 的 概率 ; 

(9) 又 设 车 只 有 一 门 炮 射 中 飞机 坠毁 的 概率 为 0.7, 车 有 两 门 炮 射 中 飞机 附 
毁 的 概率 为 0.9, 车 三 门 炮 都 射 中 ， 飞 机 必 荃 毁 ， 求 飞机 坠毁 的 概率 ， 
1.7 一 个 靶子 是 半径 为 2 米 的 圆 瘟 ， 设 击 中 靶 上 任 一 同心 圆 瘟 上 的 点 的 概率 与 
该 圆 意 的 面积 成 正比 ， 并 设 射击 都 能 中 和 靶 ， 以 外 表示 弹 着 点 与 圆心 的 距离 ， 试 
求 随机 变量 X 的 分 布 函 数 . 
1.8 某 单 位 招聘 2500 人 ， 按 考试 成 绩 从 高 分 到 低 分 依次 录用 ， 共 有 10000 人 报 
名 ， 假 设 报名 者 的 成 绩 X ~ N(1,07), 已 知 90 分 以 上 有 359 人 ， 60 分 以 下 有 
1151 人 ， 问 被 录用 者 中 最 低 分 为 多 少 ? 
1.9 现 有 90 台 同 类 型 的 设备 ， 各 台 设 备 的 工作 是 相互 独立 的 ， 发 生 故 障 的 概率 
是 0.01, 且 一 台 设 备 的 故障 能 由 一 人 处 理 ， 配 备 维修 工人 的 方法 有 两 种 ， 一 种 是 
3 人 分 开 维护 ， 每 人 负责 30 台 ， 另 一 种 是 由 3 人 共同 维护 90 台 ， 试 比较 两 种 
方法 在 设备 发 生 故 障 时 不 能 及 时 维修 的 概率 的 大 小 . 
1.10 设 二 维 随 机 向 量 (X,Y) 的 分 布 函数 为 : 





1 一 2 一 2-7 十 2 x>0,v>0, 
UY) 

0， 其 它 ， 
求 P{l<X<2,3<Y<5}. 
1.11 一 个 党 中 装 有 5 只 球 ， 其 中 4 只 红 球 ， 1 只 和 白 球 . 每 次 从 中 随机 地 柚 取 
一 只 ， 取 后 不 放 回 ， 连 续 柏 取 两 次 ， 邻 
1， 著 第 二 次 抽 到 红 球 ， 
0， 著 第 二 次 抽 到 和 白 球 ， 


1， 著 第 一 次 抽 到 红 球 ， 
这 二 这 
0， 著 第 一 次 抽 到 和 白 球 ， 


试 求 ， 
(1) (X,Y) 的 联合 分 布 律 
[2)P{X > Y}. 
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1.12 设 二 维 随 机 变量 (X,Y) 的 联合 概率 密度 函数 为 : 


Ae-(21%) 7 > 0 > 0， 
f(x,y) = . 
0, 其 它 . 
求 : 
(1) 常数 A; 
(2) P{—-1<X<1,—1<Y<1}; 
(9) P{X+Y <1}; 
(4) (X,Y) 的 联合 分布 函数 F(z,Yy). 

1.13 飞机 场 送 客 汽车 载 有 20 位 乘客 ， 离 开机 场 后 共有 10 个 车 站 可 以 下 车 ， 
若菜 个 车 站 无 人 下 车 该 车 站 则 不 停车 . 设 乘客 在 每 个 车 站 下 车 的 可 能 性 相等 且 他 
们 的 行动 相互 独立 ， 以 X 表示 停车 的 次 数 ， 求 BB(X). 

1.14 某 保 险 公 司 制 定 赔 偿 方 案 ， 如 果 在 一 年 内 一 个 顾客 的 投保 事件 A 发 生 ， 
该 公司 就 赔偿 该 顾客 a 元 ,， 若 已 知 一 年 内 事件 A 发 生 的 概率 为 p, 为 使 公司 收益 
的 期 望 值 等 于 a 的 5%, 该 公司 应 该 要 求 顾客 交纳 多 少 元 的 保险 费 ? 

1.15 设 在 总 体 N(1,0o?) 中 抽取 一 容量 为 n 的 样本 ， 这 里 /4,0? 均 为 未 知 ， 当 
n 二 16 时 , 求 P{52/o? < 2.04}. 

1.16 设 从 1) 及 2， ,Xn 和 i, Y2， ” 了 mr 有 是 分 别 来 自 于 正 态 总 体 入 人 VCL， 02) 
和 ~ Nuaa2),， 且 相 互 独立 ， 则 以 下 统计 量 服从 什么 分 布 ? 


(n — 1)(S? + 52) i i] 


7? 
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第 二 章 ”RR 软件 的 使 用 


在 第 一 章 ， 介 绍 了 概率 统计 的 基本 概念 ， 从 本 章 开 始 介绍 如 何 用 R 软件 求 
解 统计 问题 .在 介绍 各 种 方法 之 前 ， 先 对 R 软件 作 一 个 基本 的 介绍 . 


2.1 R 软件 简介 


R 是 一 个 开放 的 统计 编程 环境 ， 是 一 种 语言 ， 是 S 语言 的 一 种 实现 . 8 语 
言 是 由 AT&T Bell 实验 室 的 Rick Becker, John Chambers 和 Allan Wilks 开发 
的 一 种 用 来 进行 数据 探索 、 统 计 分 析 、 作 图 的 解释 型 语言 . 最 初 $ 语言 的 实现 版 
本 主要 是 S-PLUS. S-PLUS 是 一 个 商业 软件 ， 它 基于 S 语言 ， 并 由 MathSoft 公 
司 的 统计 科学 部 进一步 完善 。 R 是 一 种 软件 ， 是 一 套 完 整 的 数据 处 理 、 计 算 和 
制图 软件 系统 ， 其 功能 包括 ， 数据 存储 和 人 处 理 系 统 ， 数 组 运算 工具 ， 完 整 连贯 也 
统计 分 析 工 具 ， 优 秀 的 统计 制图 功能 . 简便 而 强大 的 编程 语言 ， 可 操纵 数据 的 输 
入 和 输出 ， 可 实现 分 支 、 循 环 ， 用 户 可 自 定义 功能 . 

Auckland (奥克兰 ) 大 学 的 Robert Gentleman 和 Ross Ihaka 及 其 他 志愿 人 
员 开 发 了 一 个 R 系统 ， 目 前 由 R 核心 开发 小 组 维护 ， 他 们 完全 自愿 、 工 作 努 力 
人 负责， 并 将 全 球 优秀 的 统计 应 用 软件 打包 提供 给 我 们 . 我们 可 以 通过 R 软件 的 
网 站 (http://www.r-project.org) 了 解 有 关 R 的 最 新 信息 和 使 用 说 明 ， 得 到 最 新 
版 本 的 R 软件 和 基于 R 的 应 用 统计 软件 包 . 

R 是 完全 免费 的 ， 而 S-PLUs 尽管 是 非常 优秀 的 统计 分 析 软 件 ， 但 是 需要 付 
费 的 ， 及 可 以 在 UNIX 、Windows 和 Macintosh 的 操作 系统 上 运行 ， 它 嵌入 了 
一 个 非常 实用 的 帮助 系统 ， 并 具有 很 强 的 作 图 能 力 . R 的 使 用 与 S-PLUS 有 很 
多 类 似 之 处 ， 两 个 软件 有 一 定 的 兼容 性 . S-PLUs 的 使 用 手册 ， 只 要 经 过 不 多 的 
修改 就 能 成 为 R 的 使 用 手册 . 

与 其 说 R 软件 是 一 种 统计 软件 ， 还 不 如 说 R 是 一 种 数学 计算 环境 ， 因 为 R 
提供 了 有 弹性 的 、 互 劲 的 环境 来 分 析 、 可 视 及 展示 数据 ; 它 提供 了 若干 统计 程序 
包 ， 以 及 一 些 集成 的 统计 工具 和 各 种 数学 计算 、 统 计 计 算 的 函数 ， 用 户 只 需 根据 
统计 模型 指定 相 应 的 数据 库 及 相关 的 参数 , 便 可 灵活 机 动 的 进行 数据 分 析 等 工 
作 ， 甚 至 创造 出 符合 需要 的 新 的 统计 计算 方法 . 使 用 R 软件 可 以 简化 你 的 数据 
分 析 过 程 ， 从 数据 的 存 取 ， 到 计算 结果 的 分 享 ， R 软件 提供 了 更 加 方便 的 计算 
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工具 ， 帮 助 你 更 好 地 决策 . 通过 R 软件 的 许多 内 赂 统计 函数 ， 用 户 可 以 很 容易 
学 习 和 掌握 R 软件 的 语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 ， 完 成 
你 的 科研 工作 . 


2.1.1 R 软件 的 下 载 与 安装 
R 软件 是 全 免费 的 ， 在 网 站 : 


http://cran.r-project.org/bin/windows/base/ 
可 下 载 到 及 软件 的 Windows 版 ， 当 前 的 版 本 是 R-2.3.1 版 (2006 年 6 月 1 日 
发 布 ), 大 约 是 27 光 ， 点 击 R-2.3.1-win32 下 载 ， 或 者 选择 距离 你 最 近 的 镜像 
(mirror near you) 下 载 . 注意 ,在 R-2.2.0 版 本 以 前 是 点 击 rwXXXX. exe 下载, 其 
中 XXXX 是 版 的 序号 ， 如 本 书 使 用 的 版 本 是 R-2.1.1, 则 点 击 rw2011 .exe 下 载 . 

R 软件 可 以 在 Windows 95, 98, ME, NT4, 2000, XP 和 2003 上 运行 ， 最 好 
选择 Windows 98 以 上 的 操作 系统 . 

R 软件 安装 非常 容易 , 运行 你 刚才 下 载 的 程序 , 如 R-2.3.1-win32.exe (R for 
Windows Setup), 按照 Windows 的 提示 安装 即 可 . 当 你 开始 安装 后 , 选择 安装 提示 
的 语言 (中 文 或 英文 ), 接受 安装 协议 ,选择 安装 目录 ( 缺 省 值 C:\Program Files 
\R\R-2.3.1), 并 选择 安装 组 件 .在 安装 组 件 中 ， 最 好 将 PDF Reference Manual 
项 也 选 上 ， 这 样 在 R 软件 的 帮助 文件 中 有 较为 详细 的 PDF 格式 的 软件 说 明 . 

注意 , 在 R-2.2.0 以 前 的 版 本 , 在 安装 组 件 中 , 一 定 要 选择 东亚 语言 版 (Version 
for East Asian languages), 否则 在 中 文 Windows 操作 系统 下 的 R 窗口 会 出 现 乱 
码 . 

按照 Windows 的 各 种 提示 操作 ， 你 稍 候 片 刻 ， R 软件 就 安 闭 成 功 了 . 

安装 完成 后 , 程序 会 创建 R 程序 组 并 在 桌面 上 创建 R 主 程序 的 快捷 方式 (也 
可 以 在 安装 过 程 中 选择 不 要 创建 ). 通过 快捷 方式 运行 R, 便 可 调 出 R 的 主 窗口 ， 
如 图 2.1 所 示 . 

R 软件 的 界面 与 Windows 的 其 他 编程 软件 相 类 似 ， 是 由 一 些 菜 单 和 快捷 按 
钮 组 成 . 快捷 按钮 下 面 的 窗口 便 是 命令 输入 窗口 ， 它 也 是 部 分 运算 结果 的 输出 窗 
口 ， 有 些 运算 结果 (如 图 形 ) 则 会 在 新 建 的 窗口 中 输出 . 

主 黎 口 上 方 的 一 些 文字 (如 果 是 中 文 操作 系统 ， 则 显示 中 文 ) 是 刚 运行 R 时 
出 现 的 一 些 说 明和 指引 . 文字 下 的 > 符号 便 是 R 的 命令 提示 符 (矩形 光标 ), 在 其 
后 可 输出 命令 R 一 般 采 用 交互 式 工作 方式 ， 在 命令 提示 符 后 输入 命令 ， 回 车 
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RGui 





文件 编辑 其 地 程序 包 窗口 帮助 


所 | 四 [| 


R Console 





R : Copyright 2006, The R Foundation for Statistical Computing 
Version 2.3.1 12006-06-01) 
ISBN 3-900051-07-0 
R 是 免费 软件 软件 ， 不 承 任 何 担保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
用 ， license{})'! 成 ' licencet{})'! 来 看 散布 的 详 甸 条 忻 。 
R 是 个 合作 计划 ， 有 许多 作为 之 居 出 了 页 献 . 
用 ， contributorsit)' 看 i 的 情况 
用 ,citationf) 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 或 R 程 序 包 。 
用 'demo1) ' 来 看 一 些 示 范 程 序 ， 用 'help1) 来 阅读 在 线 帮 助 文 件 ， 上 或 
pee ' 通 过 HTML 浏 览 器 来 看 帮助 文件 。 
‘qi R. 


-上 


图 2.1: R 软件 主 和 窗口 


后 便 会 输出 计算 结果 . 当然 也 可 将 所 有 的 命令 建立 成 一 个 文件 ,运行 这 个 文件 的 
全 部 或 部 分 来 执行 相应 的 命令 ， 从 而 得 到 相应 的 结果 . 这 种 计算 方式 更 加 简便 ， 
具体 计算 过 程 ， 将 在 后 面 进行 讨论 . 


2.1.2 初 识 R 


用 三 个 简单 的 例子 ， 认 识 一 下 R 软件 . 
例 2.1 某 学 校 在 体检 时 测 得 12 名 女 中 学 生体 重 X1 (千克 ) 和 胸围 Xa( 厘 米 ) 次 
料 如 表 2.1 所 示 ， 试 计算 体重 与 胸围 的 均值 与 标准 差 . 

解 直接 在 主 窗口 输入 命令 ， 

> # 输入 体重 数据 

> X1 <- c(35，40，40，42，37，45，43，37，44，42，41，39) 

> mean(X1) “ # 计算 体重 的 均值 

[1] 40.41667 

> sd(X1) # 计算 体重 的 标准 差 

[1] 3.028901 
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表 2.1: 学 生体 检 资 料 


学 生 编号 | 体重 Xi 胸围 X 体重 XX! 胸围 X。 


1 43 78 
2 37 66 
3 44 70 
4 42 65 
5 41 73 
6 39 75 





> # 输入 胸围 数据 

> X2 <- c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75) 
> mean(X2)  # 计算 胸围 的 均值 

[1] 69.66667 

> sd(X2) # 计算 胸围 的 标准 差 

[1] 5.210712 


从 上 述 计 算 过 程 来 看 ， R 软件 计算 这 些 统计 量 非常 简单 . 我 们 来 逐 句 作 一 
下 解释 . 

“#” 号 是 说 明 语句 字符 ， # 后 面 的 语句 是 说 明 语 句 ， 大 家 学 习 运 用 说 明 语 
句 ， 来 说 明 程序 要 作 的 工作 ， 增 加 程序 的 可 读 性 . 

<- 表示 赋值 ， c( ) 表示 数组 ，X1<-c( ) 即 表 示 将 一 组 数据 赋 给 变量 X1. 

mean( ) 是 求 均值 函数 ， mean(X1) 表示 计算 数组 X1 的 均值 . 

[1] 40.41667 是 计算 结果 ,这 里 的 [1] 表示 第 1 行 ，40.41667 是 计算 出 的 
均值 ， 即 这 12 名 女生 的 平均 体重 是 40.42 千克 . 

sd( ) 是 求 标准 差 函数 ， sd(X1) 表示 计算 数组 X1 的 标准 差 . 

上 述 过 程 中 的 > 号 ， 均 是 计算 机 提示 符 ， 

当 你 退出 R 系统 时 ， 计 算 机 会 询问 你 是 否 保 存 工作 空间 映 象 ， 你 可 选择 保 
存 (是 (Y)) 或 不 保存 ( 否 (NW)). 
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如 果 想 将 上 述 命令 保存 在 文件 中 , 希望 以 后 调用 ， 可 以 先 将 所 有 的 命令 放 在 
一 个 文件 中 . 用 鼠标 点 击 “ 文 件 ” 窗口 下 的 “建立 新 的 程序 脚本 ”, 则 屏幕 会 弹出 
一 个 及 编辑 (R Editor) 窗口 ， 在 窗口 中 输入 相应 的 命令 即 可 .然后 将 文件 保存 
起 来 ， 如 文件 名 : ”exam0201.R. 
例 2.2 绘 出 例 2.1 中 12 名 学 生体 重 与 胸围 的 散 点 图 和 体重 的 直方 图 . 

解 : 在 主 窗 口 下 输入 

> Xl<-c(35，40，40，42，37，45，43，37，44，42，41，39) 

> X2 <- c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75) 

> plot (X1, X2) 


则 R 软件 会 打开 一 个 新 的 窗口 ， 新 窗口 绘 出 体重 与 胸围 的 散 点 图 ， 如 图 2.2 所 
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图 2.2: 12 名 学 生体 重 与 胸围 的 散 点 图 


再 键入 
> hist(X1) 
则 屏幕 会 弹出 另 一 个 新 窗口 ， 新 窗口 绘 有 体重 的 直方 图 ， 如 图 2.3 所 示 . 
例 2.3 设 有 文本 文件 exam0203.txt, 其 内 容 与 格式 如 下 : 
Name Sex Age Height Weight 
Alice F 13 56.5 84.0 
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Frequency 


Becka 
Gail 
Karen 
Kathy 
Mary 
Sandy 
Sharon 
Tammy 
Alfred 
Duke 
Guido 
James 
Jeffrey 
John 
Philip 
Robert 


0.5 1.0 1.5 2.0 2.5 3.0 


0.0 
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Histogram of X1 
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13 
12 
16 
12 


X1 
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图 2.3: 12 名 学 生体 重 的 直方 图 





65.3 98 .0 
64.3 90.0 
56.3 77.0 
59.8 84.5 
66.5 112.0 
51.3 50.5 
62.5 112.5 
62.8 102.5 
69.0 112.5 
63.5 102.5 
67.0 133.0 
57.3 83.0 
62.5 84.0 
59 .0 99 .5 
72.0 150.0 
64.8 128.0 
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Thomas M 11 57.5 85.0 

William M 15 66.5 112.0 
其 中 第 一 行 相当 于 表 头 ， 有 是 说 明 变 量 属 性 的 ， 即 说 明 各 列 的 内 容 ， 如 第 一 列 是 姓 
名 ,第 二 列 是 性 别 ， 第 三 列 是 年 龄 ， 第 四 列 是 身高 (厘米 ), 第 五 列 是 体重 ( 磅 ). 从 
第 二 行 至 最 后 一 行 是 变量 的 内 容 . 试 从 该 文件 中 读 出 数据 ， 并 对 身高 和 体重 作 回 
归 分 析 . 

解 : (1) 建立 R 文件 (文件 名 : exam0203.B). 点 击 “ 文 件 | 建立 新 的 程序 脚 
本 ”, R 窗口 会 弹出 R 编辑 对 话 和 窗口 (R Editor), 在 窗口 中 输入 需要 编辑 的 程序 
(命令 ). 

rt<-read.table("exam0203.txt", head=TRUE); rt 
lm.sol<-lm(Weight “Height, data=rt) 
summary (lm.so1) 

下 面 解释 一 下 每 一 个 命令 的 意义 . 文件 的 第 一 行 是 读 文 件 exam0203.txt, 并 
认为 文本 文件 exam0203.txt 中 的 第 一 行 是 文件 的 头 (head=TRUE); 否则 (FALSE) 
文件 中 的 第 一 行 作 为 数据 人 处理 .并 将 读 出 的 内 容 放 在 变量 rt 中 . 第 二 个 rt 是 
显示 变量 的 内 容 (如 果 一 行 执行 多 个 命令 ， 需 用 分 号 (;) 隔 开 ). 

第 二 行 是 对 数据 rt 中 的 重量 (Weight) 与 高 度 (Height) 作 线 性 回归 ， 其 计 
算 结 果 放 置 变 量 lm.sol 中 . 

第 三 行 是 显示 变量 lm.sol 中 的 详细 内 容 ， 它 将 给 出 了 回归 的 模型 公式 、 残 
差 的 最 小 最 大 值 等 ， 和 线性 回归 系数 ， 以 及 估计 与 检验 等 . 有 关 具 体 含义 将 在 后 
面 作 详 细 介 绍 . 

(2) 执行 文件 exam0203.R 的 内 容 . 执行 文件 中 的 内 容 有 几 种 方式 ,第 一 种 ， 
在 R 编辑 窗口 中 用 鼠标 选中 要 执行 的 程序 (命令 ), 然后 再 单 击 “ 执 行 行 或 选择 
项 ", 如 图 2.4 所 示 . 第 二 种 方法 是 单 击 “ 编 辑 | 执行 一 切 … 第 三 种 方法 是 采取 
复制 、 粘 贴 的 方法 将 命令 粘贴 到 主 和 窗口， 执行 相应 的 命令 ， 

执行 后 得 到 

> rt<-read.table('"exam0203.txt", head=TRUE); rt 

















Name Sex Age Height Weight 
1 Alice 了 13 56.5 84.0 
2 Becka F 13 65.3 98.0 
3 Gail 了 14 64.3 90.0 
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RGui 





文件 编辑 程序 包 窗口 帮助 
Ce 加 


执行 行 或 选择 项 








图 2.4: 执行 R 编辑 窗口 中 的 命令 


4 Karen 了 12 56.3 77.0 
5 Kathy F 12 59.8 84.5 
6 Mary F 15 66.5 112.0 
7 Sandy FF 11 51.3 50.5 
8 Sharon F 15 62.5 112.5 
9 Tammy F 14 62.8 102.5 
10 Alfred M 14 69.0 112.5 
11 Duke M 14 63.5 102.5 
12 Guido M 15 67.0 133.0 
13 James M 12 57.3 83.0 
14 Jeffrey M 13 62.5 84.0 
15 John M 12 59.0 99.5 
16 Philip M 16 72.0 150.0 
17 Robert M 12 64.8 128.0 
18 Thomas M 11 57.5 85.0 


19 William M 15 66.5 112.0 
> lm.sol<-lm(Weight “Height, data=rt) 


> summary (lm.so1) 


Call: 
lm(formula = Weight ~ Height, data = rt) 
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Residuals: 
Min 1Q Median 3Q Max 
-17.6807 -6.0642 0.5115 9.2846 18.3698 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -143.0269 32.2746 -4.432 0.000366 *** 
Height 3.8990 0.5161 7.555 7.89e-07 +*** 


Signif. codes: 0 ’***’ O.001 ?**’ 0.01 ?#” 0.05 ”.”0.1 ”?”1 


Residual standard error: 11.23 on 17 degrees of freedom 
Multiple R-Squared: 0.7705, Adjusted R-squared: 0.757 
F-statistic: 57.08 on 1 and 17 DF, p-value: 7.887e-07 
在 执行 中 ,， 主 窗口 会 重复 显示 编辑 窗口 的 命令 ， 如 主 窗口 显示 的 第 一 行 与 编 
辑 徐 口 的 第 一 行 完全 相同 . 第 二 行 以 下 的 内 容 是 显示 变量 rt, 也 就 是 文本 文件 
exam0203.txt 中 的 内 容 ， 注 意 到 ， 显 示 内 容 比 原 内 容 增 加 了 一 列 ， 即 标号 列 . 
在 summary (lm.sol) 后 面 显 示 的 是 线性 回归 模型 具体 计算 的 结果 . 
从 上 面 三 个 列子 可 以 看 出 ， 利 用 R 软件 计算 各 种 统计 量 十 分 方便 ， 可 以 作 
图 ， 也 可 以 从 文件 中 读数 据 等 . 掌握 这 些 基 本 知识 ， 就 可 以 用 R 软件 来 为 我 们 
服务 . 
为 今后 使 用 方便 ， 先 介绍 窗口 中 的 菜单 、 快 捷 方 式 的 意义 . 

















2.1.3 ”RR 主 窗口 命令 与 快捷 方式 
主 窗 口中 的 快捷 方式 如 图 2.5 所 示 ， 相 关 含义 在 主 窗口 命令 中 解释 
1. 文件 
主 窗口 中 的 “文件 ' 窗口 如 图 2.6 所 示 . 
(1) 输入 及 代码 .. 


执行 要 输入 的 程序 . 单 击 “输入 RB 代码 . . .”, 打开 “选择 要 输入 的 程序 文件 ” 
窗口 ， 选 择 要 输入 的 程序 文件 (后缀 为 .R), 如 MyFile.R. 选择 好 要 输入 的 文件 ， 
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保存 映像 中 断 目前 的 计算 
打开 程序 脚本 粘贴 


| 


载 信 映像 复制 和 粘贴 | 
复制 打印 





图 2.5: 主 窗口 中 的 快捷 方式 及 意义 











编辑 其 地 程序 包 窗口 帮助 
输入 BR 代码. 














建立 新 的 程序 脚本 
打开 程序 脚本 . . 
显示 文件 . 
载 人 工作 空间 . 5 The R Foundation for Statistical Computing 
保存 工作 空间 ... 005-06-20), ISBN 3-900051-07-0 
载 入 历史 ... 
人 
改变 当前 目录 ... icencel)! 归于 散布 的 详细 条 件 。 
打印 .. . 人 
保存 到 六 件 ... ' 来 看 详细 的 情况 
ET 尖 训 如 但 让 出 最 物 中 正确 地 引用 R 或 R 程 序 包 。 


图 2.6: 主 窗口 中 的 文件 菜单 





按 “打开 (0)”. R 软件 会 执行 该 文件 (MyFile.B), 但 在 主 窗口 并 不 显示 所 执行 的 
内 容 (如 有 绘图 命令 ， 则 在 另 一 窗口 显示 出 所 绘图 形 ), 而 只 在 主 窗 口 显示 

> Source("MyFile.R") 
当然 ， 在 主 窗口 执行 source("MyFile.R") 命令 ， 具 有 同样 的 功能 

(2) 建立 新 的 程序 脚本 

建立 一 个 新 程序 脚本 . 单 击 “ 建 立新 的 程序 脚本 ”, 打开 一 个 新 的 R 程序 编 
辑 窗 口 ， 输 入 你 要 编写 的 R 程序 . 输入 完毕 后 ， 选 择 保存 ， 并 给 一 个 文件 名 ， 如 
MyFile.R. 

(3) 打开 程序 脚本 ... 

打开 已 有 的 程序 脚本 单 击 “ 打 开 程序 脚本 . . .”, 打开 “open script” 窗 
口 ， 选 择 一 个 R 程序， 如 MyFile.R, 屏幕 弹出 MyFile.R 编辑 窗口 ， 可 以 利用 这 
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个 窗口 对 R 程序 (MyFile.R) 进行 编辑 ， 或 执行 该 程序 中 的 部 分 或 全 部 命令 . 

(4) 显示 文件 ... 

显示 已 有 的 文件 . 单 击 “显示 文件 . . .”, 打开 “select files” 和 窗口， 选择 
一 个 文件 (*.R 或 *.q), 如 MyFile.R. 屏幕 弹出 MyFile.R 窗口 , 可 利用 该 窗口 执 
行 该 程序 (MyFile.R) 的 部 分 或 全 部 命令 ， 但 无 法 用 该 窗口 对 该 程序 进行 编辑 . 

(5) 载 入 工作 空间 . . . 

调 入 已 保存 的 工作 空间 映像 文件 . 单 击 “ 载 入 工作 至 间 .. . ,打开 “选择 要 载 
入 的 映像 ”窗口 ,在 文件 名 窗口 输入 要 载 入 的 文件 名 , 如 MyWorkSpace, 文件 类 型 是 
* .RData. 当 调 用 成 功 后 ， 保 存在 工作 空间 映像 MyWorkSpace.RData 中 的 全 部 命 
令 就 被 调 到 内 存 中 ， 这 样 在 本 次 运算 时 ， 就 不 必 重 复工 作 空 间 MyWorKkSpace .RData 
中 已 有 的 命令 . 

执行 命令 

> load("MyWorkSpace.RData") 
具有 同样 的 功能 . 

(6) 保存 工作 空间 ... 

将 当前 的 工作 空间 映像 保存 成 一 个 文件 . 单 击 “ 保 存 工作 空间 . . .”, 打开 “ 保 
存 映像 到 ”窗口 ， 在 文件 名 窗口 输入 所 需 的 文件 和 名， 如 MyWorkSpace, 文件 类 型 
为 *.RData, 按 “保存 (3)”, 则 当前 的 工作 空间 映像 就 保存 到 MyWorkSpace .RData 
文件 中 . 如 果 你 保存 的 文件 名 与 已 有 的 文件 名 重 名 ， 则 计算 机 会 提示 你 是 否 蔡 换 
已 有 文件 ， 你 可 选择 蔡 换 (是 (Y)), 或 不 蔡 换 ( 否 (N)). 

保存 工作 空间 映像 的 最 大 好 处 就 是 , 在 下 次 调用 时 ,不 必 执 行 本 次 运算 已 执 
行 的 命令 . 

执行 命令 

> save.image("MyWorkSpace.RData") 
具有 同样 的 功能 . 

(7) 载 入 历史 ... 

调 入 历史 记录 文件 到 内 存 中 . 调 入 后 ， 主 窗口 并 不 显示 调 入 内 容 ， 只 有 在 你 
按 上 下 稍 头 ， 或 Ctrl+P 、 Ctrl+N, 才 在 命令 行 显示 历史 记录 . 这样 做 可 以 减少 
你 的 键盘 输入 . 

(8) 保存 历史 ... 
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将 在 主 窗口 操作 过 的 全部 记录 保存 到 一 个 文件 中 (后缀 为 .Rhistory)， 如 
MyWork.Rhistory. 该 文件 是 纯 文本 文件 ， 用 任何 编辑 器 均 能 打开 . 

(9) 改变 当前 目录 ... 

改变 你 当前 的 工作 目录 . 在 缺 省 状态 下 ， R 的 工作 目录 是 

C:\Program Files\R\rw2011 
如 图 2.7 所 示 . 在 窗口 输入 所 需 的 工作 目录 , 如 D:\XueYi\MyWorkSpace, 也 可 按 
Browse, 选择 所 需要 的 工作 目录 ， 按 OK 键 确认 . 





Change directory 


当前 目录 改 成 : 





图 2.7: 改变 当前 目录 窗口 


(10) 打印 .. . 

打印 文件 . 

(11) 保存 到 文件 ... 

将 主 窗口 的 记录 保存 到 文本 文件 中 (lastsave.txt). 

(12) 退出 

退出 R 系统 .如 果 退 出 前 没有 保存 工作 空间 映像 ， 则 系统 会 提示 你 保存 工 
作 空 间 映 像 ， 你 可 选择 保存 (是 (Y)), 或 不 保存 ( 否 (N)). 

在 主 窗口 执行 q() 命令 ， 具有 同样 的 功能 . 

2. 编辑 

主 窗口 中 的 “编辑 ”窗口 如 图 2.8 所 示 . 

(1) 复制 

将 当前 选中 的 文本 复制 到 剪贴 板 中 . 

(2) 粘贴 

将 剪贴 板 中 的 内 容 粘 贴 到 命令 行 . 
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复制 Ctrl+C 
粘贴 Ctrl1+Y 
只 能 用 粘贴 命令 
复制 和 粘贴 CtrlHX 
选择 一 切 
清除 控制 台 Ctrl1+L 


数据 编辑 器 ... 








图 2.8: 主 窗口 中 的 编辑 菜单 


(3) 复制 和 粘贴 

将 当前 选中 的 文本 复制 到 剪贴 板 中 ， 并 将 剪贴 板 中 的 内 容 粘贴 到 命令 行 . 
(4) 选择 一 切 

选 定 主 窗口 中 的 所 有 文本 内 容 . 


(5) 清除 控制 台 

清除 主 窗 口中 的 所 有 文本 内 容 . 

(6) 数据 编辑 器 ... 

编辑 已 有 的 数据 变量 ， 并 将 新 数据 存 入 该 变量 . 例如， 在 例 2.3 中 ， 将 读 
出 的 数据 放 在 变量 rt 中 ， 现 需要 改动 rt 中 的 数据 ， 单 击 “ 数 据 编辑 器 弹出 
“Question” 窗口 ， 输 入 变量 rt, 如 图 2.9 所 示 . 按 OK, 弹出 数据 编辑 窗口 ， 如 


Question 


数据 框 或 矩阵 名 








图 2.9: Question 窗口 
图 2.10 所 示 . 你 选择 需要 修改 的 数据 进行 修改 ， 修 改 后 关闭 该 窗口 ， 此 时 变量 
rt 中 的 数据 已 变 成 新 数据 . 
在 主 窗 口 执行 fix(rt) 命令 ， 可 以 达到 同样 的 目的 . 
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图 2.10: 数据 编辑 带 窗口 


(7) GUI 选项 ... 

改变 R 的 图 形 用 户 界面 . 单 击 “GUI 选项 . ..”, 弹出 Rgui 配置 编辑 器 你 
可 根据 需要 更 改 配 置 编 辑 器 中 的 内 容 , 建议 初学 者 先 不 忙于 更 改 配 置 , 使 用 缺 省 
值 . 

3. 其 他 


主 窗 口中 的 “其 他 ”窗口 如 图 2.11 所 示 . 


列 出 目标 对 象 
山 除 所 有 的 目标 对 象 
列 出 查找 路径 





图 2.11: 主 窗 口中 的 其 他 莱 单 


(1) 中 断 目 前 的 计算 

单 击 “ 中 汤 目 前 的 计算 ”可 停止 当前 正在 执行 的 程序 . 

(2) 缓冲 输出 

单 击 “缓冲 输出 ”会 在 “缓冲 输出 ”前 出 现 或 取消 Vv, 即 执行 或 取消 缓冲 输 


(3) 列 出 目标 对 象 


2.1 R 软件 简介 61 











单 击 “ 列 出 目标 对 象 ， 列 出 全 部 变量 名 在 主 窗口 执行 1s() 命令 ， 可 以 达 
到 同样 的 目的 . 
(4) 删除 所 有 目标 对 象 
单 击 “删除 所 有 目标 对 象 ， 将 全 部 变量 从 内 存 中 清除 . 在 主 窗口 执行 
rm(list=]s(all=TRUE)) 
命令 ， 可 以 达到 同样 的 目的 . 
(5) 列 出 查找 路 径 
单 击 “ 列 出 查找 路 径 ”, 列 出 查找 文件 (或 函数 ) 的 路 径 或 程序 包 ， 以 下 基本 
的 路 径 和 程序 包 . 
[1 ".GLobalEnv" "package:methods" "package:stats" 
[4] "package:graphics" "package:grDevices" "package:utils" 
[7] "package:datasets" "Autoloads" 


在 主 窗口 执行 search() 命令 ， 可 以 达到 同样 的 目的 . 


"package:base" 


4. 程序 包 
主 窗口 中 的 “程序 包 ” 窗口 如 图 2.12 所 示 . 


文件 编辑 其 地 上 到 2 明 窗口 ”帮助 





R Console 





用 本 机 的 zip 文 件 来 安装 程序 包 . . 


图 2.12: 主 徐 口 中 的 “程序 包 ” 菜单 





(1) 载 入 程序 包 ... 

R 软件 除 上 述 基 本 程序 包 外 ， 还 有 许多 程序 包 ， 只 是 在 使 用 前 需要 调 入 . 
如 需要 读 SPSS 软件 的 数据 文件 ， 需 要 用 函数 read.spss, 但 在 使 用 前 需要 调 入 
foreign 程序 包 . 

单 击 “ 载 入 程序 包 . . .”, 弹出 选择 程序 窗口 ， 如 图 2.13 所 示 . 选择 foreign， 
按 确 定 ， 这 样 就 可 以 使 用 read.spss 函数 . 

(2) 选择 CRAN 镜像 
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Select one 





图 2.13: 选择 程序 包 窗 口 


单 击 “选择 CRAN 镜像 弹出 CRAN 镜像 窗口 ,选择 一 个 镜像 点 ， 按 “确定 ”， 
联接 到 指定 的 镜像 点 . 

(3) 选择 存放 处 ，， 

选择 程序 包 库 ， 打 开 库 窗 口 ， 选 择 一 个 座 ， 按 “确定 "计算 机 将 自动 联接 到 
所 选 的 库 ， 

(4) 安装 程序 包 ，. 

安装 新 的 程序 包 ， 单 击 “ 安 装 程序 包 "， 弹出 CRAN 镜像 窗口 ， 选 择 合适 的 镜 
像 点 ， 按 “确定 ". 此 时 ， 计 算 机 将 自动 联接 到 指定 的 镜像 点 ， 下 载 程序 包 ， 并 自 
动 安装 . 

(5) 更 新 程序 包 .. 

更 新 已 有 的 程序 包 ， 单 击 “ 更 新 程序 包 ”, 弹出 CRAN 镜像 窗口 ， 选 择 合适 的 
镜像 点 ， 按 “确定 ”. 此 时 ， 计 算 机 将 自动 联接 到 指定 的 镜像 点 ， 下 载 程序 包 ,并 
自动 更 新 

(6) 用 本 机 的 zip 文件 来 安装 程序 包 . 

打开 “Select files”, 选择 需要 安装 的 zip 文件 
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5. 窗口 
主 窗口 中 的 “窗口 ”窗口 如 图 2.14 所 示 . 








图 2.14: 主 窗口 中 的 “窗口 ” 荣 单 


(1) 层 肥 

将 所 有 窗口 层 释 . 
(2) 平 铺 

将 所 有 窗口 平 铺 . 
(3) 安排 按钮 


6. 帮助 
主 窗 口中 的 “帮助 ”窗口 如 图 2.15 所 示 . 








关于 Windows 上 了 FR 的 FA 
手册 人 IF 文件 ) RA 入门 

R 欧 考 手册 
a - k 油 据 导入 /导出 
奉 找 帮 助 Ri 语言 定义 
= a 如 何 写 R 扩 展 程 序 


search.r-project. ore ... 














图 2.15: 主 窗口 中 的 “帮助 ”菜单 


(1) 控制 台 
说 明 控制 命令 , 单 击 “ 控 制 台 ”, 弹出 说 明 控 制 命令 窗口 ， 如 图 2.16 所 示 . 在 
窗口 中 说 明 全 部 的 控制 命令 . 
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Information 


Wy 了 Faown，Ctrl+ 箭 头 键 ，Ctrl+Home，Ctrl+End， 
所 


个 宫 得 标 
去 前 冻 或 Ctrl48: 左 移 一 字符 ; 
右前 头 或 Ctrl+F:， 右 移 一 字符 ; 
Home 或 Ctrl1+hA: 移 色 | 行头 ; 
End 或 Ctrl+E: 移 到 行 尾 ; 
历史 : 上 ， 下 散 头 ，Ctrl+P，Ctrl+ 了 


| 际 : 

Del 或 Ctr1+0: 册 除 在 目前 位 置 的 字符 ; 
Backspace: 删除 目 前 位 置 之 前 前 的 字符 ; 
Ctrl1+Del 或 Ctrl+K: 册 除 目前 位 置 到 | 
Ctrl+U: 从 目前 所 在 的 行 开始 册 除 折 

复制 和 粘贴 . 
用 鼠标 (持续 按 下 左 键 ) 来 选择 六 
用 Shi ft+Del [或 Ctrl+C) 把 选择 9 . 
用 ShifttIns (或 Ctr1ty 或 Ctr1+Y) 来 粘贴 前 贴 要 的 内 容 出 0 果 有 的 话 ) 
到 控 制 台 ，Ctrl14+X 先 复制 再 粘贴 


他 : 

Ctrl+L: 清除 控 

Ctrl+0: ie ti 最 初 是 关 掉 的 。 

Ctrl4T: 将 目前 所 在 位 置 的 字符 与 其 左 方 的 字符 交换 。 


注意 : 只 用 折 入 时 控制 二 有 被 更 新 。 
用 CtrlHy 来 开关 这 一 


用 FSC 来 中 断 注释 器 。 


可 以 用 Windows 的 标准 热 键 来 转换 
绎 图 设备 (IDI 用 Ctrl+Tab 或 Ctrl+F6，SDI 用 癌 t+tTab) 





图 2.16: 控制 命令 窗口 


(2) 关于 的 FAQ 

及 常见 问答 .| FAQ 是 frequently asked questions 的 简写 单 击 “ 关 于 R 的 
FAQ”, 弹出 R FAQ 网 页 式 窗口 ， 解 释 R 的 基本 问题 ，R 的 介绍 、 R 基本 知 
识 、R 语言 与 S 语言 ， 以 及 R 程序 等 . 

(3) 关于 Windows 上 R 的 FAQ 

关于 R 软件 的 进一步 的 常见 问答 . 单 击 “关于 R 的 FAQ”, 弹出 R for Win- 
dows FAQ 网 页 式 窗 口 ， 其 内 容 有 安装 与 用 户 、 程 序 包 、Windows 的 特点 、 工 作 
空间 和 控制 台 与 字体 等 ， 该 窗口 的 问题 更 加 深入 . 

(4) 手册 (PDF 文件 ) 


给 出 R 软件 的 使 用 手册 . 有 《 R 入 门 》、《 R 参考 手册 》、《 R 数据 导入 
/ 导出 》、《 R 语言 的 定义 》、《 写 R 扩展 程序 》 和 《 R 安装 与 管理 》. 所 有 
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手册 均 是 PDF 格式 的 文件 !. 这 些 手册 为 学 习 R 软件 提供 了 有 利 的 帮助 . 

以 上 三 条 文本 帮助 文件 是 逐步 深入 的 ， 用 它们 可 以 帮助 使 用 者 快速 掌握 及 
软件 的 使 用 . 

(5) 及 函数 (文本 文件 )… 

帮助 命令 ， 相当 于 help("Fun_Name")， 单 击 “R 函数 (文本 文件 )…”, 出 现 
帮助 对 话 窗 口 ， 在 窗口 中 输入 需要 帮助 的 函数 名 ， 如 lm( 线 性 模型 ) 函数 ， 按 Ok， 
则 屏幕 上 会 出 现 新 的 对 话 框 ， 解 释 lm 的 意义 与 使 用 方法 . 

当 帮 助 不 成 功 时 , 计算 机 会 建议 你 使 用 help.search("read.spss'")( 查 找 帮 
助 ). 

(6) Html 帮助 

网 页 形式 的 帮助 窗口 . 单 击 “Html 帮助 ”, 弹出 网 页 形式 的 窗口 菜单 ， 使 用 
者 可 以 选择 需要 帮助 的 内 容 ， 双 击 ， 打 开 需 要 的 内 容 . 

(7) 查找 帮助 . . . 

查找 帮助 . 相当 于 help.search("Fun_Name"). 单 击 “查找 帮助 . . .”， 出 现 
查找 帮助 对 话 窗口 ， 在 窗口 中 输入 需要 帮助 的 函数 名 ， 如 lm( 线 性 模型 ) 函数 ， 
按 OK 键 ， 则 屏幕 上 会 出 现 新 的 对 话 框 ， 上 面 列 出 与 lm (线性 模型 ) 有 关 的 全 部 
函数 名 (包括 广义 线性 模型 本 数 名 ). 

(8) search.r-project.org 

在 网 站 上 查找 单 击 “search.r-project.org”， 屏 幕 出 现 “搜索 邮件 列表 档案 
和 文档 ”对 话 框 ， 输 入 查找 内 容 ， 则 计算 机 将 自动 联接 网 站 ( http://search.r- 
project.org), 查找 你 需要 的 内 容 . 

(9) 关于 . . . 

列 出 相关 的 函数 与 变量 . 相当 于 apropos("Fun_Name")， 单 击 “ 关 于 . . .”， 
出 现 关 于 对 话 窗 口 ， 在 窗口 中 输入 需要 查找 的 函数 名 或 变量 名 ， 如 lm, 按 OK, 则 
屏幕 上 会 出 现 新 的 对 话 框 ， 上 面 列 出 含有 字符 串 lm 的 全 部 函数 名 与 变量 名 . 

注意 :，“R 函数 (文本 文件 )…” 和 “关于 . . .” 是 在 当前 已 有 的 程序 包 中 查 
找 , 而 “查找 帮助 . . . ”是 在 整个 程序 包 中 查找 . 例如 ，“ 帮 助 ” 和 “关于 ”对 话 框 
中 输入 “read.spss”( 读 SPSS 数据 文件 函数 ), 则 主 窗口 出 现 “character(0)”， 


“需要 在 你 的 计算 机 中 安装 PDF 阅读 软件 Adobe Acropat Reader 才能 阅读 使 用 手册 . 
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即 无 法 查 到 . 而 利用 “查找 帮助 ”对 话 框 ， 则 屏幕 上 会 出 现 新 的 窗口 ， 告 诉 你 
read.spss 属于 foreign 程序 包 . 

(10) R 主页 

联接 到 R 主页 ， 即 http://www.r-project.org/ 

(11) CRAN 主页 

联接 到 CRAN 主页 ， 即 http://cran.r-project.org/. 

(12) 关于 

介绍 R 的 版 本 信息 . 


2.2 数字、 字符 与 向 量 


本 节 介 绍 R 软件 最 简单 的 运算 ， 数 字 与 向 量 的 运算 . 





2.2.1 向量 


1. 向 量 的 赋值 
R 软件 中 最 简单 的 运算 向 量 赋值 ， 如 果 打 算 建 立 一 个 名 为 的 向 量 ， 相 应 
的 分 量 是 10.4, 5.6, 3.1, 6.4 和 21.7, 用 R 命令 是 
> x <- c(10.4, 5.6, 3.1, 6.4, 21.7) 
其 中 7z 是 变量 名 ， <- 为 赋值 符 ， c( ) 为 向 量 建立 函数 .上 述 命 令 就 是 将 函数 
c( ) 中 数据 赋 给 变量 x. 
另 一 个 赋值 函数 是 assign( ), 其 命令 形式 为 
> assign("xz"，c(10.4，5.6，3.1，6.4，21.7)) 
第 三 种 赋值 形式 为 
> c(10.4, 5.6, 3.1, 6.4, 21.7) -> x 
进一步 有 
>y <- c(x, 0, x) 


定义 变量 y 有 11 个 分 量 ， 其 中 两 边 是 变量 + ， 中 间 是 零 ， 
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对 于 向 量 可 以 作 加 (+) 、 减 (-)、 乘 (*) 、 除 (/) 和 乘 方 (人) 运算， 其 含意 
是 对 向 量 的 每 一 个 元 素 进行 运算 ， 其 中 加 、 减 和 数 乘 运算 与 我 们 通常 的 向 量 运 
基本 相同 ， 如 

> x <- c(-1, 0, 2); y <- c(3, 8, 2) 

>V<-2xx+y+ 1 YV 

[1] 2 9 7 
第 一 行 , 输入 向 量 x 和 y. 第 二 行 , 将 向 量 的 计算 结果 赋 给 变量 v, 其 中 2*x+y 是 
作 通 常 的 向 量 运算 ， +1 表示 向 量 的 每 个 分 量 均 加 1. 分 号 后 的 v 是 为 显示 计算 
内 容 ， 因 为 R 软件 完成 计算 后 进行 赋值 ， 并 不 显示 相应 的 计算 内 容 . 

对 于 向 量 的 乘法 、 除 法 、 乘 方 运算 , 其 意义 是 : 对 应 向 量 的 每 个 分 量 作 乘法 、 

除法 和 乘 方 运算 ， 如 
>x*y 
[1] -3 0 4 
>x/y 
[1] -0.3333333 0.0000000 1.0000000 
> x°2 
[1] 1 0 4 
>y x 
[1] 0.3333333 1.0000000 4.0000000 
由 于 没有 作 赋 值 运算 ， 所 以 ， R 在 运算 后 会 直接 显示 计算 结果 . 

另外 ，% / % 表示 整数 除法 (例如 5 %/ 多 3 为 1 各 名 表示 求 余数 (例如 
5%%3 为 2). 

还 可 以 作 函 数 运算 , 如 基本 初等 函数 ， 如 log, exp, cos, tan, sqrt 等 , 当 自 变 
量 为 向 量 时 ， 函 数 的 返回 值 也 是 向 量 ， 即 每 个 分 量 取 相应 的 函数 值 ， 如 

> exp(x) 
[1] 0.3678794 1.0000000 7.3890561 









































> sqrt(y) 

[1] 1.732051 2.828427 1.414214 
但 sqrt(-2) 会 给 出 NAN 和 相应 的 警告 信息 ， 因 为 负数 不 能 开 方 . 但 如 果 需 要 作 
复数 运算 ， 则 输入 形式 应 改 为 sqrt(-2+0i). 


3. 与 向 量 运 算 有 关 的 函数 
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介绍 一 些 与 向 量 运 算 有 关 的 函数 . 
(1) 求 向 量 的 最 小 值 、 最 大 值 和 范围 的 函数 . 
min(Z) 、 Imax(z) 、 Tange(Z) 分 别 表示 求 向 量 x 的 最 小 分 量 、 最 大 分 量 和 
向 量 z 的 范围 ， 即 Imin(z), max(z)]. 如 
> X<- c(10, 6, 4, 7, 8) 
> min(x) 
[1] 4 
> max(x) 
[1] 10 
> range(x) 
[1] 4 10 
与 min() (max()) 有 关 的 函数 是 which.min() (which.max()), 表示 在 第 几 个 
分 量 求 到 最 小 (最 大 ) 值 ， 如 
> which.min(x) 
[1] 3 
> which.max(x) 
[1] 1 
(2) 求 和 函数 、 求 乘积 函数 . 
sum(z) 表示 求 向 量 > 分 量 之 和 ， 即 zw. prod(z) 表示 求 向 量 x 分 量 联 科 
积 ， 即 II zi. 还 有 length(x) 表示 求 向 量 x 分 量 的 个 数 ， 即 nn. 
(3 ) 中 位 数 、 均值 、 方 差 、 标 准 差 和 顺序 统计 量 . 
median(z) 表示 求 向 量 x 的 中 位 数 . mean(x) 表示 求 向 量 x 的 均值 ， 即 
sum(Z)/length(z). var(x) 表示 求 向 量 x 的 方差 ， 即 
var(z) = sum ((z — mean(7))’) /(length(x) — 1). 
sd(z) 表示 求 向 量 z 的 标准 差 ， 即 sd(z) = Vvar(7x). 
sort(x) 表示 求 与 向 量 x 大 小 相同 , 按 递增 顺序 排列 的 向 量 , 即 顺序 统计 量 . 
相应 的 下 标 由 order(z) 或 sort.list(z) 列 出 . 例如 ， 当 x<-c(10，6，4，7，8) 
时 ，sum(z) 、prod(z) 、length(z) 、median(x) 、mean(z) 、var(x) 和 sort(Z) 
的 计算 结果 分 别 是 35、13440、5、7、7、5 和 4 6 7 8 10. 
有 关 均 值 、 方 差 等 统计 量 的 性 质 和 函数 的 使 用 方法 ， 在 第 三 章 还 会 介绍 . 
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2.2.2 ”产生 有 规律 的 序列 


1. 等 差 数 列 


a:b 表示 从 a 开始 ， 逐 项 加 1( 或 减 1), 直到 b 为 止 . 如 x <- 1:30 表示 向 
量 z= (1,2,…,30), x <- 30:1 表示 向 量 x = (30,29,…,1). 当 a 为 实数 ，b 
为 整数 时 ， 向 量 a:b 是 实数 ， 其 间隔 差 1. 而 当 a 为 整数 ，b 为 实数 时 ， a:b 表 
示 其 间隔 差 1 的 整数 向 量 ， 如 

> 2.312:6 

[1] 2.312 3.312 4.312 5.312 
> 4:7.6 

[1] 4567 

注意 : x <- 2*1:15 并 不 是 表示 2 到 15, 而 是 表示 向 量 x = (2,4,:……,30)， 
即 x <- 2 * (1:15), 也 就 是 等 差 运 算 优 于 乘法 运算 . 同 理 ，1:n-1 并 不 是 表示 
1 到 n-1, 而 是 表示 问 量 1:n 减 去 1. 若 需 要 表示 1 到 n-1, 则 需要 对 n-1 加 括号 . 
比较 下 面 两 种 表示 的 差别 . 


> n<-5 








> 1:n-1 
[1] O1234 
> 1:(n-1) 
[1] 1234 
注意 ， 这 一 点 对 于 初学 者 非常 容易 引起 混淆 . 
2. 等 间隔 函数 
seq() 函数 是 更 一 般 的 函数 ， 它 产生 等 距 间 隔 的 数列 ， 其 基本 形式 为 
sedq(from=valuel, to= value2, by=value3) 
即 从 valuel 开始 ， 到 value2 结束 ， 中 间 的 间隔 为 value3. 如 
> seq(-5, 5, by=.2) -> sl 
表示 向 量 sl = (一 5.0, 一 4.8, 一 4.6,.……,4.6, 4.8, 5.0). 从 上 述 定义 来 看 ，seq(2,10) 
等 价 于 2:10, 在 不 作 特别 声明 的 情况 下 ， 其 间隔 为 1. 
对 于 seq 函数 还 有 田 一 种 使 用 方式 ， 


seq(length=value2, from=valuel, by=value3) 
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即 从 valuel 开始 ， 间 隔 为 value3, 其 向 量 的 长 度 为 value2. 如 
> s2 <- seq(length=51, from=-5, by=.2) 
产生 的 s2 与 向 量 sl 相同 ， 
3. 重复 函数 
rep() 是 重复 函数 ， 它 可 以 将 某 一 向 量 重 复 若 干 次 再 放 入 新 的 变量 中 ， 如 
> s <- rep(x, times=3) 
即将 变量 x 重复 3 倍 ， 放 在 变量 s 中 .如 
> x <- c(1, 4, 6.25); x 
[1] 1.00 4.00 6.25 


> s <- rep(x, times=3); s 


[1] 1.00 4.00 6.25 1.00 4.00 6.25 1.00 4.00 6.25 














2.2.3 ”逻辑 向 量 
与 其 它 语言 一 样 ， R 软件 允许 使 用 逻辑 操作 当 逻 辑 运算 为 真 时 ， 返 回 值 
为 TRUE, 当 钦 辑 运算 为 假 时 ， 返 回 值 为 FALSE. 例如 
> x <- 1:7 


>1<-x>3 


SS: 下 
[1] FALSE FALSE FALSE TRUE TRUE TRUE TRUE 
逻辑 运算 符 有 《<，<=，>，>=，== (表示 等 于 ) 和 !=( 表 示 不 等 于 ). 如 果 cl 
和 c2 是 两 个 逻辑 表达 式 ， 则 cl & c2 表示 cl “与 ”c2, cl | c2 表示 cl “或 ” 
c2, 1cl 表示 “ 非 cl ”. 
逻辑 变量 也 可 以 赋值 ， 如 
> z <- c(TRUE, FALSE, F, T) 
其 中 T 是 TRUE 的 简写 ，F 是 FALSE 简写 . 
判断 一 个 逻辑 回 量 是 否 都 为 真 值 的 函数 是 a11, 如 
> all(c(1, 2, 3, 4, 5, 6, 7) > 3) 
[1] FALSE 
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判断 是 否 其 中 有 真 值 的 函数 是 any, 如 
> any(c(1, 2, 3, 4, 5, 6, 7) > 3) 
[1] TURE 


2.2.4 ”缺失 数据 
用 NA 表示 某 处 的 数据 缺 省 或 缺失 ， 如 


> Z <- c(1:3, NA); z 
[1] 1 2 3 NA 
函数 is.na() 是 检测 缺失 数据 的 函数 ,如 果 返 回 值 为 真 (TRUE), 则 说 明 此 数 
据 是 缺失 数据 .如 果 返 回 值 为 假 (FALSE), 则 此 数据 不 是 缺失 数据 ， 如 
> ind <- is.na(z); ind 


[1] FALSE FALSE FALSE TRUE 
如 果 需 要 将 缺失 数据 改 为 0, 则 用 如 下 命令 


> z[is.na(z)] <- 0; Zz 

[1] 1 230 
类 似 的 函数 还 有 is.nan() (检测 数据 是 否 不 确定 ，TRUE 为 不 确定 , FALSE 为 确定 )， 
is.finite() (检测 数据 是 否 有 限 ， TRUE 为 有 限 ，FALSE 为 无 穷 )， is.infinite() 
(检测 数据 是 否 为 无 穷 ， TRUE 为 无 穷 ， FALSE 为 有 限 ). 例如 ， 

> x<-c(0/1, 0/0, 1/0, NA); x 

[1] 0 NaN Inf NA 

> is.nan(x) 

[1] FALSE TRUE FALSE FALSE 

> is.finite(x) 

[1] TRUE FALSE FALSE FALSE 

> is.infinite(x) 

[1] FALSE FALSE TRUE FALSE 

> is.na(X) 

[1] FALSE TRUE FALSE TRUE 
在 x 的 四 个 分 量 中 ， 0/1 为 0, 只 有 在 is.finite 的 检测 下 是 真 ， 其 余 均 为 假 . 
0/0 为 不 确定 ， 但 对 函数 is.nan 和 is.na 的 检测 下 均 为 真 ， 这 是 因为 不 确定 数 
据 也 认为 是 缺失 数据 1/0 为 无 穷 ， 因此 只 在 is.infinite 检测 下 为 真 ， NA 
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为 缺失 数据 ， 只 有 在 is .na 检测 下 为 真 ， 因 为 缺失 数据 并 不 是 不 确定 数据 ， 所 以 
在 is.nan 检测 下 仍 为 假 . 

如 果 对 不 确定 数据 、 缺 失 数据 赋值 ， 可 以 采用 对 缺失 数据 赋值 的 方法 为 它们 
赋值 . 
2.2.5 ”字符 型 向 量 


向 量 元 素 可 以 取 字 符 串 值 ， 例 如 ， 








> y <-c ("er", "sdf", "eir", "jk", "dim") 
或 

> cl"er", "sdf", "eir", "jk", "dim") ->y 
则 得 到 

> 


[1] "er" "sdf" "eir" "jk" "dim" 
可 用 paste 函数 用 来 把 它 的 自 变量 连 成 一 个 字符 串 ， 中 间 用 空格 分 开 ， 例 如 ， 
> paste("My","Job") 
[1] "My Job" 
连接 的 自 变 量 可 以 是 向 量 , 这 时 各 对 应 元 素 连 接 起 来 ,长 度 不 相同 时 较 短 的 向 量 
被 重复 使 用 . 自 变 量 可 以 是 数值 向 量 ， 连 接 时 自动 转换 成 适当 的 字符 串 表 示 ， 例 
如 ， 
































> labs<-paste("X", 1:6, sep = ""); labs 
[4] "Xi™ “X2" "X3" "XA4" "Xb" "X6" 
分 隔 用 的 字符 可 以 用 sep 参数 指定 ， 例 如 下 例 产生 若干 个 文件 名 ， 
> paste("result.", 1:4, sep="") 
[1] "result.1" "result.2" "result.3" "result.4" 
关于 paste 函数 ， 还 有 以 下 几 种 用 法 . 
> paste(1:10) # same as as.character(1:10) 
[0 
> paste("Today is", date()) 
[1] "Today is Tue Sep 13 16:16:29 2005" 
> paste(c(’a’, ’b’), collapse=’.’) 
[1] "a.b" 
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2.2.6 ”复数 向 量 


R 支持 复数 运算 , 复数 常量 只 要 用 通常 的 格式 ， 如 3.5+2.1i. complex 模式 
的 向 量 为 复数 元 素 的 向 量 ， 可 以 用 complex() 函数 生成 复数 向 量 ， 如 
> x <- seq(-pi, pi, by=pi/10) 








y <- sin(x) 
Z <- complex(re=x, im=y) 


plot (z) 








> 
> 
> 
> lines(z) 
行 


其 中 第 一 行 是 给 出 向 量 x 的 值 ， 第 二 行 是 计算 向 量 y 的 值 ， 第 三 行 是 构造 复数 
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Re(z) 


图 2.17: 复数 z= z+isin(z) 的 散 点 图 和 折线 图 











向 量 ， 其 中 x 为 实 部 ，y 为 虚 部 ， 第 四 行 是 绘 出 复数 向 量 z 的 散 点 图 ， 第 五 行 
是 用 实 线 连接 这 些 散 点 . 图 2.17 给 出 了 相应 的 图 形 . 

对 于 复数 运算 ， Re() 是 计算 复数 的 实 部 ， Im() 是 计算 计算 复数 的 虚 部 ， 
Mod() 是 计算 复数 的 模 ， Arg() 是 计算 复数 的 幅 角 . 


2.2.7 ”向 量 下 标 运 算 


R 软件 提供 了 十 分 灵活 的 访问 向 量 元 素 和 向 量子 集 的 功能 . 某 一 个 元 素 只 
要 用 x[i] 的 格式 访问 ,其 中 x 是 一 个 向 量 名 ， 或 一 个 取向 量 值 的 表达 式 ， 如 
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> x <- c(1,4,7) 
> x[2] 
[1] 4 
> (c(1, 3, 5) + 5) [2] 
[1] 8 
可 以 单独 改变 一 个 元 素 的 值 ， 如 
> x[2] <- 125 
> .4 
[1] 1 125 ? 


> x[c(1,3)] <- c(144, 169) 
> 驻 


[1] 144 125 169 


1. 逻辑 向 量 





v 为 和 x 等 长 的 逻辑 向 量 ， x[v] 表示 取出 所 有 v 为 真 值 的 元 素 ， 如 
> x <- c(1,4,7) 
>x<5 
[1] TRUE TRUE FALSE 
> x[x<5] 
[1] 1 4 
可 以 将 向 量 中 缺失 数据 赋 为 0, 如 
> Z <- c(-1，1:3，NA) 
> Z[is.na(Z)] <- 0 
> Z 
[1] -1 1 2 3 0 
也 可 以 将 向 量 中 非 缺 失 数据 赋 给 另 一 个 向 量 ， 如 
> Z <- c(-1，1:3，NA) 
> y <- z[!is.na(z)] 
2 
[1] -1 1 2 3 
或 作 相 应 的 运算 ， 
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> (z+1)[(!is.na(z)) & 2z>0] -> x 


>x 
[1] 2 3 4 
改变 部 分 元 素 值 的 技术 与 逻辑 值 下 标 方 法 结合 可 以 定义 癌 量 的 分 段 函 数 , 例 
如 ， 要 定义 
1—7x, TXT<0 
ee 
1+7x, TX>0 
可 以 用 


> y <- numeric(length(x)) 
> y[x<0] <- 1 - x[x<0] 
> y[x>=0] <- 1 + x[x>=0] 
来 表示 ， 其 中 numeric 函数 是 产生 数值 型 向 量 . 
2. 下 标的 正 整数 运算 


v 为 一 个 向 量 ， 下 标 取 值 在 1 到 length(v) 之 间 ， 取 值 允 许 重 复 ， 例 如 ， 
> V<- 10:20 
> v[c(1,3,5,9)] 
[1] 10 12 14 18 
> Vv[1:5] 
[1] 10 11 12 13 14 
> v[c(1,2,3,2,1)] 
[1] 10 11 12 11 10 
> cl("a",'"b",'"c") [rep(c(2,1,3), times=3)] 


[1] WD, > wen We 人 ven Wa ed a wen 
3. 下 标的 负 整 数 运算 


Y 为 一 个 向 量 ， 下 标 取 值 在 一 lenght (x) 到 一 1 之 间 ， 如 
> v[-(1:5)] 
[1] 15 16 17 18 19 20 
表示 扣除 相应 的 元 素 . 


4. 取 字 符 型 值 的 下 标 向 量 
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在 定义 向 量 时 可 以 给 元 素 加 上 名 字 ， 如 
> ages <- c(Li=33, Zhang=29, Liu=18) 
> ages 
Li Zhang Liu 
33 29 18 
这 样 定义 的 向 量 可 以 用 通常 的 办 法 访问 ， 另 外 还 可 以 用 元 素 名 字 来 访问 元 素 或 元 
素 子 集 ， 例 如 ， 
> ages["Zhang"] 











Zhang 
29 


向 量 元 素 名 可 以 后 加 ， 如 
> fruit <- c(5, 10, 1, 20) 
> names(fruit) <- c("orange", "banana", "apple", "peach") 
> fruit 
orange banana apple peach 
5 10 1 20 


2.3 ”对 象 和 它 的 模式 与 属性 


R 是 一 种 基于 对 象 的 语言 . R 的 对 象 包含 了 若干 个 元 素 作 为 其 数据 ， 另 外 
还 可 以 有 一 些 特殊 数据 称 为 属性 (attribute), 并 规定 了 一 些 特定 操作 (如 打印 、 
绘图 ). 比如 ， 一 个 向 量 是 一 个 对 象 ， 一 个 图 形 也 是 一 个 对 象 . R 对 象 分 为 单纯 
(atomic) 对 象 和 复合 (recursive) 对 象 两 种 ， 单 纯 对 象 的 所 有 元 素 都 是 同一 种 基 
本 类 型 (如 数值 、 字 符 串 ), 元 素 不 再 是 对 象 ， 复 合 对 象 的 元 素 可 以 是 不 同类 型 的 
对 象 ， 每 一 个 元 素 是 一 个 对 象 . 





2.3.1 固有 属性 : mode 和 length 
R 对 象 都 有 两 个 基本 的 属性 : mode( 类 型 ) 属性 和 length( 长 度 ) 属性 . 比 
如 向 量 的 类 型 为 logical( 人 逻辑 型 ) 、 numeric( 数 值 型 ) 、 complex( 复 数 型 ) 、 
character( 字 符 型 ), 比如 
> mode(c(1,3,5)>5) 
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[1] "logical" 
R 对 象 有 一 种 特别 的 nul1( 空 值 型 ) 型 ， 只 有 一 个 特殊 的 NULL 值 为 这 种 类 
型 ， 表 示 没 有 值 (不 同 于 NA, NA 是 一 种 特殊 值 ， 而 NULL 根本 没有 对 象 值 ). 
要 判断 某 对 象 是 否 某 类 型 ， 有 许多 个 类 似 于 is.numeric() 的 函数 可 以 完 
成 ， is .numeric(x) 用 来 检验 对 象 x 是 否 为 数值 型 ， 它 返回 一 个 逻辑 型 结果 . 
is.character() 可 以 检验 对 象 是 否 为 字符 型 ， 等 等 ， 如 


>z <- 0:9 





> is.numeric(z) 
[1] TRUE 
> is.character(z) 
[1] FALSE 
长 度 属性 表示 R 对 象 元 素 的 个 数 ， 比 如 
> length(2:4) 
[1] 3 
> length(z) 
[1] 9 
注意 向 量 允 许 长 度 为 0, 如 数值 型 向 量 长 度 为 零 表 示 为 numeric() 或 numeric(0)， 
字符 型 向 量 长 度 为 零 表 示 为 character() 或 character(0). 
R 可 以 强制 进行 类 型 转换 ， 例 如 
> digits <- as.character(Z); digits 
[1] Mn oh a ne pg 














> d <- as.numeric(digits); d 

[1] O0123456789 
第 一 个 赋值 把 数值 型 的 z 转换 为 字符 型 的 digits， 第 二 个 赋值 把 digits 又 转 
换 为 了 数值 型 的 du 这 时 d 和 z 是 一 样 的 了 . R 还 有 许多 这 样 的 以 as. 开头 的 


2.3.2 ”修改 对 象 的 长 度 


对 象 可 以 取 0 长 度 或 正 整数 为 长 度 . R 允许 对 超出 对 象 长 度 的 下 标 赋值 ， 
这 时 对 象 长 度 自 动 伸 长 以 包括 此 下 标 ， 未 赋值 的 元 素 取 缺 失 值 (NA), 例如 
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> x <- numeric() 


> x[3] <- 17 
之 : -天 
[1] NA NA 17 
要 增加 对 象 的 长 度 只 需 作 赋 值 运 算 就 可 以 了 ， 如 
> x <- 1:3 
>x <- 1:4 
[1] 1 2 3 4 





要 缩短 对 象 的 长 度 又 怎么 办 呢 ? 只 要 给 它 赋 一 个 长 度 短 的 子 集 就 可 以 了 . 如 
> x <- x[1:2] 
>xXxX 
[1] 1 2 
> alpha <- 1:10 
> alpha <- alpha[2 * 1:5] 
> alpha 
[1] 2 4 6 8 10 
或 给 对 象 的 长 度 赋值 ， 如 
> length(alpha) <- 3 
> alpha 
[1] 2 4 6 


2.3.3 attributes() 和 attr() 函数 


attributes(object) 返回 对 象 object 的 各 特殊 属性 组 成 的 列表 ， 不 包括 
固有 属性 mode 和 length. 例如 ， 
> x <- c(apple=2.5,orange=2.1); x 
apple orange 
2.5 2.1 
> attributes (x) 
$names 


[1] "apple" "orange" 
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可 以 用 attr(object，name) 的 形式 存 取 对 象 object 的 名 为 name 的 属性 . 例 
如 ， 
> attr(x,'"names'") 
[1] "apple" "orange" 
也 可 以 把 attr() 函数 写作 赋值 的 左边 以 改变 属性 值 或 定义 新 的 属性 ， 例 如 ， 
> attr(x,'"names") <- c("apple",'"grapes'"); x 
apple grapes 
2.5 2.1 
> attr(x, "type") <- "fruit"; x 
apple grapes 
2.5 2 
attr(,"type'") 
[1] "fruit" 
> attributes (x) 
$names 


[1] "apple" "grapes" 


$type 
[1] "fruit" 


2.3.4 ”对 象 的 class 属性 


在 及 中 可 以 用 特殊 的 class 属性 来 支持 面向 对 象 的 编程 风格 , 对 象 的 class 
属性 用 来 区 分 对 象 的 类 , 可 以 写 出 通用 函数 根据 对 象 类 的 不 同 进行 不 同 的 操作 ， 
比如 ， print() 函数 对 于 回 量 和 矩阵 的 显示 方法 就 不 同 ，Plot() 函数 对 不 同类 
的 自 变量 作 不 同 的 图 形 . 

为 了 暂时 去 掉 一 个 有 类 的 对 象 的 class 属性 ， 可 以 使 用 unclass (object) 
函数 . 








2.4 因子 


统计 中 的 变量 有 几 种 重要 类 别 : 区 间 变 量 、 名 义 变量 和 有 序 变量 . 区 间 变 量 
取 连 续 的 数值 ， 可 以 进行 求 和 、 平 均值 等 运算 ,名义 变量 和 有 序 变量 取 离 散 值 ， 
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可 以 用 数值 代表 ， 也 可 以 是 字符 型 值 ， 其 具体 数值 没有 加 减 乘除 的 意义 ， 不 能 用 
来 计算 ， 而 只 能 用 来 分 类 或 计数 .名义 变量 如 性 别 、 省 份 、 职 业 ， 有 序 变 量 如 班 





2.4.1 factor() 函数 











因为 离散 变量 有 各 种 不 同 表示 方法 , 在 R 软件 中 , 为 了 统一 起 见 , 使 用 因子 
(factor) 来 表示 这 种 类 型 的 变量 . 例如， 知道 5 位 学 生 的 性 别 ， 用 因子 变量 表示 
> sex <- cM', "Fn, "MM", nF") 
> sexf <- factor(sex); sexf 
[1] MF MMEF 
Levels: FM 
函数 factor() 用 来 把 一 个 向 量 编码 成 为 一 个 因子 .其 一 般 形式 为 ; 
factor(x, levels = sort(unique(x), na.last = TRUE) ， 
labels, exclude = NA, ordered = FALSE) 
其 中 x 是 向 量 ， levels 是 水 平 ， 可 以 自行 指定 各 离散 取 值 ， 不 指定 时 由 x 的 不 
同 值 来 求 得 ， labels 可 以 用 来 指定 各 水 平 的 标签 ， 不 指定 时 用 各 离散 取 值 的 对 
应 字符 串 ,， exclude 参数 用 来 指定 要 转换 为 缺失 值 (NA) 的 元 素 值 集合 ， 如 果 
指定 了 levels, 则 因子 的 第 i 个 元 素 当 它 等 于 水 平 中 第 j 个 时 元 素 值 取 "j", 如 
果 它 的 值 没有 出 现在 levels 中 ， 则 对 应 因子 元 素 值 取 NA. ordered 取 值 为 真 
(TRUE) 时 , 表示 因子 水 平 是 有 次 序 的 ( 按 编码 次 序 ); 否则 ( 缺 省 值 ) 是 无 次 序 的 . 
可 以 用 is.factor() 检验 对 象 是 否 因子 ， 用 as .factor() 把 一 个 向 量 转 换 
成 一 个 因子 . 
用 函数 levels() 可 以 得 到 因子 的 水 平 ， 如 
> sex.level <- levels(sexf); sex.level 
[1] "EF" "M" 
对 于 因子 向 量 ， 可 用 函数 table() 来 统计 各 类 数据 的 频数 .例如 ， 


> Sex.tab <- table(sexf); sex.tab 











sexf 
F M 
2 .3 
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表示 男性 3 人 ,女性 2 人 . table() 的 结果 是 一 个 带 元 素 名 的 向 量 ， 元 素 名 为 
因子 水 平 ， 元 素 值 为 该 水 平 的 出 现 频数 . 关于 table 的 使 用 方法 ,在 后 面 还 会 讲 
到 . 


2.4.2 tapply() 函数 
我 们 除了 知道 5 位 学 生 的 性 别 ， 还 知道 5 位 学 生 的 身高 ， 分 组 求 身 高 的 平 
均值 . 


> height <- c(174, 165, 180, 171, 160) 
> tapply(height, sex, mean) 


F M 
162.5 175.0 
函数 tapply() 的 一 般 使 作 格 式 为 : 
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE) 


其 中 X 是 一 对 象 ， 通 常 是 一 向 量 ， INDEX 是 与 X 有 同样 长 度 的 因子 ， FUN 是 需 
要 计算 的 函数 ， simplify 是 逻辑 变量 ， 取 为 TRUE( 缺 省 ) 和 FALSE. 


2.4.3 gl1() 函数 








g1() 函数 可 以 方便 地 产生 因子 ， 其 一 般 用 法 是 
gl(n, k, length = n*k, labels = 1:n, ordered = FALSE) 
其 中 为 水 平 数 ，k 为 重复 的 次 数 ， length 为 结果 的 长 度 ， labels 是 一 个 n 


维 向 量 ,表示 因子 水 平 ，ordered 是 逻辑 变量 ， 表 示 是 否 为 有 序 因子 ， 缺 省 值 为 
FALSE. 如 

















> gl1(3,5) 

[1] 111112222233333 
Levels: 123 

> gl1(3,1,15) 

[1] 123123123123123 
Levels: 123 
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2.5 多维 数组 和 和 矩阵 
2.5.1 ”生成 数组 或 矩阵 


数组 (array) 可 以 看 成 是 带 多 个 下 标的 类 型 相同 的 元 素 的 集合 ， 常 用 的 是 数 
值 型 的 数组 如 矩阵 ， 也 可 以 有 其 它 类 型 (如 字符 型 、 逻 辑 型 、 复 数 型 ). R 可 以 很 
容易 地 生成 和 处 理 数组 ， 特 别 是 矩阵 (二 维 数 组 ). 

数组 有 一 个 特征 属性 叫做 维 数 向 量 (dim 属性 ), 维 数 向 量 是 一 个 元 素 取 正 整 
数值 的 向 量 ， 其 长 度 是 数组 的 维 数 ， 比 如 维 数 向 量 有 两 个 元 素 时 数组 为 二 维 数组 
(矩阵 ). 维 数 向 量 的 每 一 个 元 素 指定 了 该 下 标的 上 界 ， 下 标的 下 界 总 为 1. 

1. 将 向 量 定义 成 数组 

向 量 只 有 定义 了 维 数 向 量 (dim 属性 ) 后 才能 被 看 作 是 数组 ， 比 如 : 

> z<-1:12 


> dim(z)<-c(3,4) 
>z 








[,1 [,2] [,3] [,4] 
[1,] 1 4 7 10 
[2,] 2 5 8 11 
[3,] 3 6 9 12 
注意 : 矩阵 的 元 素 是 按 列 存放 的 ， 也 可 以 把 向 量 定义 为 一 维 数组 ， 例 如 : 
> dim(z)<-12 
>z 
[1] 1 2 3 4 5 6 7 8 9101112 
2. 用 array() 函数 构造 多 维 数组 
R 软件 可 以 用 array() 函数 直接 构造 数组 ， 其 构造 形式 为 
array(data = NA, dim = length(data), dimnames = NULL) 
其 中 data 是 一 个 向 量 数据 ， dim 是 数组 各 维 的 长 度 ， 缺 省 时 为 原 癌 量 的 长 度 . 
dimnames 是 数组 维 的 名 字 ， 缺 省 时 为 空 ， 如 
> X <- array(1:20,dim=c(4,5)) 
产生 一 个 4x 5 的 二 维 数组 (矩阵), 即 
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> 又 


[,1] [2] [,3] [,4] [,5] 
[1,] 1 5 9 13 17 


[2,] 2 6 10 14 18 

[3,] 3 7 11 15 19 

[4,] 4 8 12 16 20 
男 一 种 方式 为 


> Z <- array(0,dim=c(3, 4, 2)) 
它 定 义 了 一 个 3x 4x2 的 三 维 数组 ,其 元 素 均 为 0. 这 种 方法 常用 来 对 数组 作 初 
始 化 . 


3. 用 matrix() 函数 构造 矩阵 
函数 matrix() 是 构造 矩阵 (二 维 数组 ) 的 函数 ， 其 构造 形式 为 


matrix(data=NA, nrow=1, ncol=1, byrow=FALSE, dimnames=NULL) 
其 中 data 是 一 个 向 量 数据 ， nrow 是 矩阵 的 行 数 ， ncol 是 矩阵 的 列 数 ， 当 
byrow=TRUE 时 ， 生 成 矩阵 的 数据 按 行 放置 ， 缺 省 时 相当 于 byrow=FALSE, 数据 按 
列 放置 dimnames 是 数组 维 的 名 字 ， 缺 省 时 为 空 . 

如 构造 一 个 3 x 5 阶 的 矩阵 








> A<-matrix(1:15, nrow=3,ncol=5,byrow=TRUE) 
> 人 
[,1] [,2] [,3] [,4] [,5] 
[1,] 1 2 3 4 5 
[2,] 6 8 9 10 
[3,] 11 12 13 14 15 
注意 ， 下 面 两 种 格式 与 前 面 的 格式 是 等 价 的 . 
> A<-matrix(1:15, nrow=3,byrow=TRUE) 
> A<-matrix(1:15, ncol=5,byrow=TRUE) 
如 果 将 语句 中 的 byrow=TRUE 去 掉 ， 则 数据 按 列 放 置 . 


2.5.2 ”数组 下 标 
数组 与 向 量 一 样 ， 可 以 对 数组 中 的 某 些 元 素 进行 访问 ， 或 进行 运算 . 
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1. 数组 下 标 
要 访问 数组 的 某 个 元 素 , 只 要 写 出 数组 名 和 方 插 号 内 的 用 逗号 分 开 的 下 标 即 
可 ,如 a[2，1，2]. 如 
> a <- 1:24 
> dim(a) <- c(2,3,4) 
> a[2,1，2] 
[1] 8 


更 进一步 还 可 以 在 每 一 个 下 标 位 置 写 一 个 下 标 向 量 , 表示 这 一 维 取出 所 有 指 
定 下 标的 元 素 ， 如 a[1，2:3，2:3] 取出 所 有 第 一 下 标 为 1, 第 二 下 标 为 2 或 3， 
第 三 下 标 为 2 或 3 的 元 素 . 如 
> a[1，2:3，2:3] 
[,1] [,2] 
[1,] 9 15 
[2,] 11 17 
注意 ， 因 为 第 一 维 只 有 一 个 下 标 ， 所 以 退化 了 ， 得 到 的 是 一 个 维 数 向 量 为 2 x 2 
的 数组 . 
另外 ， 如 果 略 写 某 一 维 的 下 标 ， 则 表示 该 维 全 选 ， 例 如 ， 
> a[L1，，] 
[,1] [,2] [,3] [,4] 
[1,] 1 7 13 19 
[2,] 3 9 15 21 
[3,] 5 11 17 23 
取出 所 有 第 一 下 标 为 1 的 元 素 ， 得 到 一 个 形状 为 3 x 4 的 数组 . 
S71. si | 
[,1] [,2] [,3] [,4] 
[1,] 3 9 15 21 
[2,] 4 10 16 22 


取出 所 有 第 二 下 标 为 2 的 元 素 得 到 一 个 2 x 4 的 数组 . 
> a[i1,1, ] 
[1] 1 7 13 19 
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则 只 能 得 到 一 个 长 度 为 4 的 向 量 ， 不 再 是 数组 . a[ ，，] 或 a[] 都 表示 整个 
数组 .比如 
> a [<-0 
可 以 在 不 改变 数组 维 数 的 条 件 下 把 元 素 都 赋 成 0. 


还 有 一 种 特殊 下 标 办 法 是 对 于 数组 只 用 一 个 下 标 向 量 (是 向 量 ， 不 是 数组 )， 
比如 























> a[3:10] 
[1] 3 4 5 6 7 8 910 


这 时 忽略 数组 的 维 数 信息 把 表达 式 看 作 是 对 数组 的 数据 癌 量 取 子 集 . 
2. 不 规则 的 数组 下 标 


在 RR 语言 中 , 甚至 可 以 把 数组 中 的 任意 位 置 的 元 素 作 为 数组 访问 , 其 方法 是 
用 一 个 二 维 数组 作为 数组 的 下 标 ， 二 维 数组 的 每 一 行 是 一 个 元 素 的 下 标 ， 列 数 为 
数组 的 维 数 . 例如 , 要 把 上 面 的 形状 为 2x3x4 的 数组 a 的 第 [1,1,1], [2,2,3]， 
[1,3,4]，[2,1,4] 号 共 四 个 元 素 作为 一 个 整体 访问 ， 先 定义 一 个 包含 这 些 下 标 


> b <- matrix(c(1,1,1,2,2,3,1,3,4,2,1,4), ncol=3, byrow=T) 





> b 

[,1] [,2] [,3] 
[1,] 1 1 1 
[2,] 2 2 3 
[33] 1 3 4 
[4,] 2 1 4 
> a[b] 


[1] 1 16 23 20 
注意 取出 的 是 一 个 向 量 . 我 们 还 可 以 对 这 儿 个 元 素 赋值 ， 如 : 
> a[b] <- c(101,102,103,104) 
或 


> a[lb] <- 0 
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2.5.3 ”数组 的 四 则 运算 


可 以 对 数组 之 间 进 行 四 则 运算 (十 、 一 、* 、/), 这 时 进行 的 是 数组 对 应 元 
素 的 四 则 运算 ， 参 加 运算 的 数组 一 般 应 该 是 相同 形状 的 (dim 属性 完全 相同 ). 例 
如 ， 
> A <- matrix(1:6, nrow=2, byrow=T); A 
[,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 4 5 6 
> B <- matrix(1:6, nrow=2); B 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> C <- matrix(c(1,2,2,3,3,4), nrow=2); C 
[,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 2 3 4 
> D <- 2*C+A/B; D 
[,1] [,2] [,3] 
[1,] 3 4.666667 6.6 
[2,] 6 7.250000 9.0 
从 这 个 例子 可 以 看 到 ,数组 的 加 、 减 法 运算 和 数 乘 运 算 满足 原 矩 阵 运 算 的 性 
质 ， 但 数组 的 乘 、 除 法 运算 实际 上 是 数组 中 对 应 位 置 的 元 素 作 运算 . 
形状 不 一 致 的 向 量 (或 数组 ) 也 可 以 进行 四 则 运算 ， 一 般 的 规则 是 将 向 量 (或 
数组 ) 中 的 数据 与 对 应 向 量 (或 数组 ) 中 的 数据 进行 运算 ， 把 短 向 量 (或 数组 ) 的 
数据 循环 使 用 ， 从 而 可 以 与 长 向 量 (或 数组 ) 数据 进行 匹配 ， 并 尽 可 能 保留 共同 
的 数组 属性 ， 例 如， 
> xl <- c(100,200) 
> x2 <- 1:6 
> XT+X2 
[1] 101 202 103 204 105 206 


> x3 <- matrix(1:6, nrow=3) 
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> xl+x3 

[,1] [,2] 
[1,] 101 204 
[2,] 202 105 
[3,] 103 206 


可 以 看 到 ， 当 向 量 与 数组 共同 运算 时 ， 向 量 按 列 匹配 。 当 两 个 数组 不 匹配 时 ， 





会 提出 警告 . 如 
> x2 <- 1:5 
> X1+X2 
[1] 101 202 103 204 105 
警告 信息 : 


长 的 目标 对 象 长 度 不 是 短 的 目标 对 象 长 度 的 整 倍数 in: xl + x2 
2.5.4 ”矩阵 的 运算 
这 里 简单 地 介绍 R 软件 中 矩阵 的 基本 运算 . 
1. 转 置 运算 
对 于 矩阵 4, 函数 t(A) 表示 秆 阵 4 的 转 置 ， 即 4 如 


> A<-matrix(1:6,nrow=2); A 
[;1] ‘[;2] ;3] 

[1,] 1 3 5 

[2,] 2 4 6 

> t(A) 
[,1] [,2] 

[1,] 1 2 

[2,] 3 4 

[3,] 5 6 


2. 求 方 阵 的 行列 式 
函数 det () 是 求 方 阵 行列 式 的 值 ， 如 


> det(matrix(1:4, ncol=2)) 
[1] -2 
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3. 向 量 的 内 积 


对 于 nn 维 向 量 x, 可 以 看 成 n x 1 阶 和 矩阵 或 1 x n 阶 和 矩阵 . 若 x 与 y 是 相同 
维 数 的 向 量 ， 则 x %*% y 表 示 z 与 y 作 内 积 . 例如 ， 
> x <- 1:5; y <- 2*1:5 


> x h*% 了 
[,1] 
[1,] 110 





函数 crossprod() 是 内 积 运算 函数 (表示 交叉 乘积 )，crossprod(x,y) 计算 
向 量 z 与 y 的 内 积 ， 即 *t(x) %*% y’. crossprod(x) 表 示 7x 与 + 的 内 积 , 即 ||z||2. 

类 似 地 ， tcrossprod(x,y) 表示 ;x %*% t(y):， 即 z 与 y 的 外 积 ， 也 称 为 又 
况 . tcrossprod(x) 表示 7 与 x 作 外 积 . 


4. 向 量 的 外 积 (又 积 ) 


设 x,y 是 维 向 量 ， 则 x %o% y 表 示 z 与 y 作 外 积 . 例如 ， 
> X<- 1:5; y <- 2*1:5 
> x ho% y 
[,1] [,2] [,3] [,4] [,5] 
[1,] 2 4 6 8 10 
[2,] 4 8 12 16 20 
[3,] 6 12 18 24 30 
[4,] 8 16 24 32 40 
[5,] 10 20 30 40 50 
函数 outer() 是 外 积 运算 函数 ， outer(x,y) 计算 向 量 z 与 y 的 外 积 ， 它 
等 价 于 x %o% y. 
函数 outer() 的 一 般 调用 格式 为 


outer(X, Y, fun = "*", ...) 


其 中 X，Y 矩阵 (或 向 量 )，fun 是 作 外 积 运算 函数 ， 缺 省 值 为 乘法 运算 ， 函 数 
outer() 在 绘制 三 维 曲面 时 非常 有 用 ， 它 可 生成 一 个 X 和 Y 的 网 格 ， 关 于 它 在 
绘制 三 维 曲面 的 用 法 将 在 第 三 章 3.3.1 节 中 讲 到 . 


5. 和 矩阵 的 乘法 
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如 果 和 矩阵 4 和 B 具有 相同 的 维 数 ， 则 A * B 表示 矩阵 中 对 应 的 元 素 的 乘 
让，A % * % B 表示 通常 意义 下 的 两 个 矩阵 的 乘积 (当然 要 求 惩 阵 4 的 列 数 等 
于 矩阵 B 的 行 数 ). 如 

> A <- array(1:9,dim=(c(3,3))) 
> B <- array(9:1,dim=(c(3,3))) 
>C<-A*B;C 
[,1] [,2] [,3] 
[1,] 9 24 21 
[2,] 16 25 16 
[3,] 21 24 9 
>D <- A %“*% B; D 
[,1] [,2] [,3] 
[1,] 90 54 18 
[2,] 114 69 24 
[3,] 138 84 30 
由 乘法 的 运算 规则 可 以 看 出 ， x %* % A %* % x 表示 的 是 二 次 型 . 
函数 crossprod(A,B) 表示 的 是 t(A) % * % B, 子 数 tcrossprod(A,B) 表 
示 的 是 A % * % t(B). 


6. 生成 对 角 阵 和 矩阵 取 对 角 运 算 


函数 diag() 依赖 于 它 的 变量 ， 当 v 是 一 个 向 量 时 ， diag(v) 表示 以 v 的 
元 素 为 对 角 线 元 素 的 对 角 阵 . 当 M 是 一 个 矩阵 时 ， 则 diag(M) 表示 的 是 取 M 对 
角 线 上 的 元 素 的 向 量 .， 如 
> v<-c(1,4,5) 
> diag(v) 
[,1] [,2] [,3] 
[1,] 1 0 0 
[2,] 0 4 0 
[3,] 0 0 5 
> M<-array(1:9,dim=c (3,3)) 
> diag(M) 
[1] 1 5 9 
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7. 解 线性 方程 组 和 求 矩 阵 的 逆 和 矩阵 


若 求 解 线 性 方程 组 Ax = b, 其 命令 形式 为 solve (A,b), 求 矩 阵 4 的 逆 ， 其 
命令 形式 为 solve (A). 设 和 矩阵 


1 2 3 1 
A=|45 6 |1,， b=|1 
7 8 10 1 


则 解 方程 组 4z = 5 的 解 x 和 求 算 阵 4 的 逆 和 矩阵 B 的 命令 如 下 
> A <- t(array(c(1:8, 10),dim=c(3,3))) 
> b <- c(1,1,1) 
> x <- solve(A,b); x 
[1] -1.000000e+00 1.000000e+00 -4.728549e-16 
> B <- solve(A); B 
[,1] [,2] [,3] 
[1,] -0.6666667 -1.333333 1 
[2,] -0.6666667 3.666667 -2 
[3,] 1.0000000 -2.000000 由 


8. 求 矩 阵 的 特征 值 与 特征 向 量 
函数 eigen(Sm) 是 求 对 称 怎 阵 Sm 的 特征 值 与 特征 向 量 ， 其 命令 形式 为 
> ev <- eigen(Sm) 


则 ev 存放 着 对 称 和 矩阵 Sm 特征 值 和 特征 向 量 ， 是 由 列表 形式 给 出 的 (有 关 列 表 
的 概念 见 2.6 节 )， 其 中 ev$values 是 Sm 的 特征 值 构成 的 向 量 ，ev$vectors 是 
Sm 的 特征 向 量 构成 的 秆 阵 ， 如 


> Sm<-crossprod(A,A) 








> ev<-eigen(Sm); ev 
$values 
[1] 303.19533618 0.76590739 0.03875643 
$vectors 

[1 [,2] [,3] 
[1,] -0.4646675 0.833286355 0.2995295 
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[2,] -0.5537546 -0.009499485 -0.8326258 
[3,] -0.6909703 -0.552759994 0.4658502 


9. 矩阵 的 奇异 值 分 解 


函数 svd(A) 是 对 矩阵 4 作 奇 异 值 分 解 ， 即 4 = UDV”, 其 中 U,V 是 正 
交 阵 ，D 为 对 角 阵 ， 也 就 是 和 矩阵 4 的 奇异 值 。 svd(A) 的 返回 值 也 是 列表 ， 
svd(A)$d 表示 和 矩阵 4 的 奇异 值 ， 即 矩阵 D 的 对 角 线 上 的 元 素 . ”svd(A)$u 对 
应 的 是 正 交 阵 U, svdq(A)$v 对 应 的 是 正 交 阵 V. 例如 ， 


> svdA<-svd(A); 
$d 
[1] 17.4125052 
$u 

[,1] 
[1,] -0.2093373 
[2,] -0.5038485 
[3,] -0.8380421 
$v 

[,1] 
[1,] -0.4646675 
[2,] -0.5537546 
[3,] -0.6909703 
> attach(svdA) 
> u %*% diag(d) 


svdA 


0.8751614 0.1968665 


[,2] [,3] 
0.96438514 0.1616762 
0.03532145 -0.8630696 

-0.26213299 0.4785099 


[,2] [,3] 
-0.833286355 0.2995295 
0.009499485 -0.8326258 
0.552759994 0.4658502 


h*% tvV) 


[,1] [,2] [,3] 


[1,] 1 2 
[2,] 4 5 
[3,] 7 8 


3 
6 
10 


在 上 面 的 语句 中 ， attach(svdA) 是 说 明 下 面 的 变量 u，v，d 是 附属 于 svdA 
的 ， 关 于 attach() 函数 的 使 用 方法 将 在 2.6.2 节 作 详细 介绍 . 


10. 求 矩 阵 的 行列 式 的 值 


函数 det (A) 是 求 算 阵 4 的 行列 式 值 。 如 
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> det (A) 
[1] -3 


11. 最 小 拟 合 与 QR 分 解 


函数 1sfit() 的 返回 值 是 最 小 二 乘 拟 合 的 结果 ， 命 令 
> lsfit.sol <- lsfit(X, y) 
给 出 最 小 二 乘 拟 合 结果 ， 其 中 y 是 观测 向 量 ， X 是 设计 和 窍 阵 ， 例 如 


0.0 0.2 0.4 0.6 0.8 





0.9 1.9 2.8 3.3 4.2 


作 线 性 最 小 二 乘 拟 合 ， 其 命令 如 下 : 
> x<-c(0.0, 0.2, 0.4, 0.6,，0.8) 
> y<-c(0.9, 1.9, 2.8, 3.3, 4.2) 
> lsfit.sol <- lsfit(x, y) 
得 到 的 计算 结果 是 列表 形式 (关于 列表 的 概念 将 在 2.6 节 讨 论 ) 
> lsfit.sol 
$coefficients 
Intercept X 

1.02 4.00 
$residuals 
[1] -0.12 0.08 0.18 -0.12 -0.02 
$intercept 
[1] TRUE 
$qr 
$qt 
[1] -5.85849810 2.52982213 0.23749843 -0.02946714 0.10356728 
$qr 

Intercept X 
[1,] -2.2360680 -0.8944272 
[2,] 0.4472136 0.6324555 
[3,] 0.4472136 -0.1954395 
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[4,] 0.4472136 -0.5116673 
[5,] 0.4472136 -0.8278950 
$qraux 

[1] 1.447214 1.120788 
$rank 

[1] 2 

$pivot 

[1] 1 2 

$tol 

[1] 1e-07 

attr(,'"class'") 


[1] "gr" 


其 中 $coefficients 是 拟 合 系数 ，$residuals 是 拟 合 残 差 ， 其 他 参数 我 们 先 不 
作 解 释 ， 大 家 可 看 在 线 帮助 . 


与 1sfit() 函数 有 密切 关系 的 函数 是 1s .diag(, 它 给 出 拟 合 的 进一步 的 统 
计 信 息 . 

另 一 个 最 小 二 乘 拟 全 有 密切 关系 的 函数 是 QR 分解 函数 qr(), 和 它 的 同类 
函数 ， 有 如 下 函数 qr() ，qr.coef()，qr.fitted() 和 qr.resid(). 为 了 进 一 
步 理解 这 些 命 令 ， 还 看 上 面 的 例子 

> X<-matrix(c(rep(1,5), x), ncol=2) 
> Xplus <- qr(X); Xplus 
$qr 

[,1] [,2] 
[1,] -2.2360680 -0.8944272 
[2,] 0.4472136 0.6324555 
[3,] 0.4472136 -0.1954395 
[4,] 0.4472136 -0.5116673 
[5,] 0.4472136 -0.8278950 
$rank 
[1] 2 


$qraux 
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[1] 1.447214 1.120788 
$pivot 
[1] 1 2 
attr(,'"class'") 
[1] "qr" 
QR 分 解 函 数 qrO 输入 的 设计 矩阵 需要 加 以 1 为 元 素 的 列 ， 其 返回 值 是 列表 ， 
其 中 $qr 矩阵 的 上 三 角 阵 是 QR 分 解 中 得 到 的 R 和 矩阵， 下 三 角 阵 是 QR 分 解 得 
到 的 正 交 阵 Q 的 部 分 信息 ， $qraux 是 Q 的 附加 信息 . 注意 ， 这 两 个 参数 的 结 
果 与 函数 1sfit() 得 到 的 结果 是 相同 的 . 
可 用 QR 分 解 得 到 的 结果 计算 最 小 二 乘 的 系数 
> b <- dr.coef(Xplus，y); b 
[1] 1.02 4.00 
得 到 的 系数 与 函数 1sfit() 也 是 相同 的 ， 但 为 什么 用 这 种 方法 计算 呢 ? 这 是 因 
为 用 QR 分 解 在 计算 最 小 二 乘 拟 合 时 ， 其 计算 误差 比 一 般 方法 要 小 . 
类 似 地 ， 可 以 通过 QR 分 解 得 到 最 小 二 乘 的 拟 合 值 和 残 差 值 . 
> fit <- qr.fitted(Xplus, y); fit 
[1] 1.02 1.82 2.62 3.42 4.22 
> res <- gr.resid(Xplus, y); res 
[1] -0.12 0.08 0.18 -0.12 -0.02 


2.5.5 ”与 矩阵 (数组 ) 运算 有 关 的 函数 


1. 取 矩 阵 的 维 数 


函数 dim(A) 得 到 甜 阵 4 的 维 数 ， 函 数 nrow(A) 得 到 矩阵 4 的 行 数 ， 函 数 
ncol(A) 得 到 矩阵 4 的 列 数 .如 
> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> dim(A) 
[1] 2 3 
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> nrow(A) 
[1] 2 
> ncol(A) 
[1] 3 


2. 和 矩阵 的 合并 


函数 cbind() 把 其 自 变 量 横向 拼 成 一 个 大 和 矩阵， rbind() 把 其 自 变 量 纵向 
拼 成 一 个 大 和 矩阵. cbind() 的 自 变 量 是 矩阵 或 看 作 列 向 量 的 向 量 时 ， 目 变量 的 
高 度 应 该 相等 。 rbind() 的 自 变 量 是 矩阵 或 看 作 行 癌 量 的 向 量 时 ， 目 变量 的 宽 
度 应 该 相等 .如 果 参 与 合并 的 上 自 变量 比 其 变量 短 ， 则 循环 补足 后 合并 . 如 
> xl <- rbind(c(1,2), c(3,4)); xl 
[,1] [,2] 
[1,] 1 2 
[2,] 3 4 
> x2 <- 10+xl1 
> x3 <- cbind(x1, x2); x3 
[,1] [,2] [,3] [,4] 
[1,] 1 2 11 12 
[2,] 3 4 13 14 
> x4 <- rbind(x1, x2); x4 
[,1] [,2] 
[1,] 1 2 
[2,] 3 4 
[3,] 11 12 
[4,] 13 14 
> cbind(1, x1) 
[,1] [,2] [,3] 
[1,] 1 1 2 
[2,] 1 3 4 

















3. 矩阵 的 拉 直 
设 4 是 一 个 矩阵 ， 则 函数 as .vector(A) 就 可 以 将 窍 阵 转化 为 向 量 ， 如 
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如 
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> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 

[1,] 1 3 5 

[2,] 2 4 6 

> as.vector(A) 

[1] 123456 


4. 数组 的 维 名 字 
数组 可 以 有 一 个 属性 dimnames 保存 各 维 的 各 个 下 标的 名 字 , 缺 省 时 为 NULL. 


> X <- matrix(1:6, ncol=2, 
dimnames=list(c('"one'",'"two'",'"three"), c('"First'","Second")), 
byrow=T); X 


First Second 


one 1 2 
two 3 4 
three 5 6 


也 可 以 先 定义 窍 阵 X 然后 再 为 dimnames(X) 赋值 ， 例 如 ， 


> X<-matrix(1:6, ncol=2, byrow=T) 
> dimnames(X) <- list( 


c("one", "two'", "three"), c("First", "Second'")) 


对 于 矩阵， 还 可 以 使 用 属性 rownames 和 colnames 来 访问 行 名 与 列 名 . 例如 ， 


> X<-matrix(1:6, ncol=2, byrow=T) 
> colnames(X) <- c('"First", "Second') 


> rownames(X) <- c('"one", "two", "three'") 


5. 数组 的 广义 转 置 
可 以 用 aperm(A，perm) 函数 把 数组 A 的 各 维 按 perm 中 指定 的 新 次 序 重 新 


排列 ， 例 如 ， 


> A<-array(1:24, dim = c(2,3,4)) 
> B<-aperm(A, c(2,3,1)) 
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结果 B 把 A 的 第 2 维 移 到 了 第 1 维 ，4 的 第 3 维 移 到 了 第 2 维 ，A 的 第 1 维 移 
到 了 第 三 维 . 这 时 有 B[i,j,k]=A[j,k,i]. 
对 于 矩阵 A, aperm(A，c(2,1)) 恰好 是 矩阵 转 置 ， 即 t (A). 


6.apply 函数 
对 于 向 量 ， 可 以 用 sum 、mean 等 函数 对 其 进行 计算 . 对 于 数组 (矩阵 ) 如 
果 想 对 其 一 维 (或 耕 干 维 ) 进行 某 种 计算 ， 可 用 apply 函数 ， 其 一 般 形式 为 
apply(A, MARGIN, FUN, ...) 
其 中 A 为 一 个 数组 ， MARGIN 是 固定 哪些 维 不 变 ， FUN 是 用 来 计算 的 函数 .如 
> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> apply(A,1,sum) 
[1] 9 12 
> apply(A,2,mean) 
[1] 1.5 3.5 5.5 


2.6 ”列表 与 数据 框 
2.6.1 ”列表 (list) 


1. 列表 的 构造 
列表 是 一 种 特别 的 对 象 集合 ， 它 的 元 素 也 由 序号 (下 标 ) 区 分 ， 但 是 各 元 素 
的 类 型 可 以 是 任意 对 象 ， 不同 元 素 不 必 是 同一 类 型 . 元 素 本 身 允 许 是 其 它 复 杂 数 
据 类 型 ， 比 如 ， 列 表 的 一 个 元 素 也 允许 是 列表 .下面 是 如 何 构造 列表 的 例子 . 
> Lst <- list(name="Fred", wife="Mary", no.children=3, 


child.ages=c(4,7,9)) 














> Lst 
$name 


[1] "Fred" 


98 第 二 章 R 软件 的 使 用 


$wife 

[1] "Mary" 
$no.children 
[1] 3 
$child.ages 
[1] 4 7 9 


列表 元 素 总 可 以 用 “列表 名 [[ 下 标 ]]” 的 格式 引用 . 例如， 

> Lst[[2]] 

[1] "Mary" 

> Lst[[4]] [2] 

[1] 7 
但 是 ， 列 表 不 同 于 向 量 ， 我 们 每 次 只 能 引用 一 个 元 素 ， 如 Lst[[1:2]] 的 用 法 是 
不 允许 的 

注意 ， “列表 名 [下 标 ] ”或 “列表 名 [ 下 标 范 围 ] ”的 用 法 也 是 合法 的 ， 
但 其 意义 与 用 两 重 括号 的 记 法 完全 不 同 ,两 重 记号 取出 列表 的 一 个 元 素 , 结果 与 
该 元 素 类 型 相同 ， 如 有 果 使 用 一 重 括 号 ， 则 结果 是 列表 的 一 个 子 列表 (结果 类 型 仍 
为 列表 ). 

在 定义 列表 时 如 果 指 定 了 元 素 的 名 字 (如 Lst 中 的 name, wife, no.children， 
child.ages), 则 引用 列表 元 素 还 可 以 用 它 的 名 字 作 为 下 标 ， 格 式 为 “列表 名 [[" 
元 素 名 "]]”, 如 

> Lst[["name"]] 

[1] "Fred" 

> Lst[["child.age"]] 
[1] 47 9 


另 一 种 格式 是 “列表 名 $ 元 素 名 ”, 如 
> Lst$name 
[1] "Fred" 
> Lst$wife 
[1] "Mary" 
> Lst$child.ages 
[1] 4 7 9 
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构造 列表 的 一 般 格 式 为 


Lst <- list(name_1=object_1, ..., name_m=object_m) 
其 中 name 是 列表 元 素 的 名 称 ， object 是 列表 元 素 的 对 象 . 
2. 列表 的 修改 


列表 的 元 素 可 以 修改 ， 只 要 把 元 素 引 用 赋值 即 可 ， 如 将 Fred 改 成 John. 
> Lst$name <- "John'" 
如 果 需 要 增加 一 项 家 庭 收入 ， 夫 妻 的 收入 分 别 是 1980 和 1600, 则 输入 
> Lst$income <- c(1980, 1600) 
如 果 要 删除 列表 的 茶 一 项 ， 则 将 该 项 赋 空 值 (NULL). 
儿 个 列表 可 以 用 连接 函数 c() 连接 起 来 , 结果 仍 为 一 个 列表 ,其 元 素 为 各 自 
变量 的 列表 元 素 ， 如 
>list.ABC <- c(list.A, list.B, list.C) 


3. 返回 值 为 列表 的 函数 

在 R 中 , 有 许多 函数 的 返回 值 是 列表 , 如 求 特征 值 特 征 向 量 的 函数 eigen()， 
奇异 值 分 解 函数 svd() 和 最 小 二 乘 函 数 数 1sfit() 等 ， 这 里 不 再 一 一 讨论 ,在 
用 到 时 再 讨论 相关 函数 的 意义 . 


2.6.2 ”数据 框 (data.frame) 


数据 框 是 R 的 一 种 数据 结构 . 它 通 常 是 定 阵 形式 的 数据 ， 但 矩阵 各 列 可 以 
是 不 同类 型 的 ， 数据 框 每 列 是 一 个 变量 ， 每 行 是 一 个 观测 . 

但 是 , 数据 框 有 更 一 般 的 定义 . 它 是 一 种 特殊 的 列表 对 象 , 有 一 个 值 为 “data 
.frame” 的 class 属性 ， 各 列表 成 员 必须 是 向 量 (数值 型 、 字 符 型 、 逻 辑 型 ) 、 
子 、 数 值 型 矩 、 列 表 ， 或 其 它 数据 框 . 向 量 、 因 子 成 员 为 数据 框 提供 一 个 变量 ， 
如 果 回 量 非 数值 型 会 被 强制 转换 为 因子 ， 而 和 矩阵、 列表 、 数 据 框 这 样 的 成 员 为 新 
数据 框 提供 了 和 其 列 数 、 成 员 数 、 变 量 数 相同 个 数 的 变量 .作为 数据 框 变量 的 向 
量 、 因 子 或 害 阵 必须 具有 相同 的 长 度 ( 行 数 ). 

尽管 如 此 , 一 般 还 是 可 以 把 数据 框 看 作 是 一 种 推广 了 的 矩阵 ， 它 可 以 用 和 矩阵 
形式 显示 ， 可 以 用 对 矩阵 的 下 标 引 用 方法 来 引用 其 元 素 或 子 集 . 


1. 数据 框 的 生成 
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数据 框 可 以 用 data.frame() 函数 生成 ， 其 用 法 与 list() 函数 相同 ， 各 自 
变量 变 成 数据 框 的 成 分 ， 自 变量 可 以 命名 ， 成 为 变量 名 .例如 
> df<-data.frame( 
Name=c("Alice", "Becka", "James", "Jeffrey", "John'"), 
Sex=c("F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5, 65.3, 57.3, 62.5, 59.0), 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
); df 
Name Sex Age Height Weight 
1 Alice F 13 56.5 84.0 
2 Becka F 13 65.3 98.0 
3 James M 12 57.3 83.0 
4 Jeffrey M 13 62.5 84.0 
5 John M 12 59.0 99.5 


如 果 一 个 列表 的 各 个 成 分 满足 数据 框 成 分 的 要 求 ， 它 可 以 用 as.data.frame() 
函数 强制 转换 为 数据 框 ， 比 如 ， 


> Lst<-list( 
Name=c("Alice", "Becka", "James", "Jeffrey", "John'"), 
Sex=c("F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5, 65.3, 57.3, 62.5, 59.0), 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
); Lst 
$Name 
[1] "Alice" "Becka" "James" "Jeffrey" "John" 
$Sex 
[1] "FF" "FF" "M" "M" "M" 
$Age 
[1] 13 13 12 13 12 
$Height 
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[1] 56.5 65.3 57.3 62.5 59.0 
$Weight 
[1] 84.0 98.0 83.0 84.0 99.5 
则 as.data.frame(Lst) 是 与 df 相同 的 数据 框 . 
一 个 矩阵 可 以 用 data.frame() 转换 为 一 个 数据 框 ， 如 果 它 原来 有 列 名 则 其 
列 名 被 作为 数据 框 的 变量 名 ， 否则 系统 自动 为 矩阵 的 各 列 起 一 个 变量 名 ,如 
> X <- array(1:6, c(2,3)) 
> data.frame(X) 
X1 X2 X3 
i 
2 2 4 6 





2. 数据 框 的 引用 


引用 数据 框 元 素 的 方法 与 引用 矩阵 元 素 的 方法 相同 ,可 以 使 用 下 标 或 下 标 向 
量 ， 也 可 以 使 用 名 字 或 名 字 向 量 . 如 
> df [1:2，3:5] 
Age Height Weight 
1 13 56.5 84 
2 13 65.3 98 


数据 框 的 各 变量 也 可 以 用 按 列表 引用 《〈 即 用 双 括 号 [[ ]] 或 $ 符号 引用 ). 如 

> df[["Height"]] 

[1] 56.5 65.3 57.3 62.5 59.0 

> df$Weight 

[1] 84.0 98.0 83.0 84.0 99.5 
数据 框 的 变量 名 由 属性 names 定义 , 此 属性 一 定 是 非 空 的 . 数据 框 的 各 行 也 可 以 
定义 名 字 ， 可 以 用 rownames 属性 定义 .如 


> names (df) 














[1] "Name'" Sex'" "Age" "Height" "Weight" 
> rownames (df)<-c("one", "two", "three", "four", "five') 
> df 


Name Sex Age Height Weight 
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13 56.5 84.0 
13 65.3 98.0 
57.3 83.0 
13 62.5 84.0 
12 59.0 99.5 


one Alice 
two Becka 
three James 


four Jeffrey 


三 三 屋 品 可 
上 一、 
D 


five John 


3. attach() 函数 
数据 框 的 主要 用 途 是 保存 统计 建 模 的 数据 ， R 的 统计 建 模 功 能 都 需要 以 数 
据 框 为 输入 数据 . 我 们 也 可 以 把 数据 框 当成 一 种 矩阵 来 处 理 . 在 使 用 数据 框 的 变 
量 时 可 以 用 “数据 框 名 $ 变量 名 ”的 记 法 . 但 是 ， 这 样 使 用 较 麻 烦 ， R 提供 了 
attach() 函数 可 以 把 数据 框 中 的 变量 “连接 * 到 内 存 中 , 这 样 便于 数据 框 数据 的 
调用 . 例如 ， 
> attach(df) 
> r <- Height/Weight; r 
[1] 0.6726190 0.6663265 0.6903614 0.7440476 0.5929648 
后 一 语句 将 在 当前 工作 空间 建立 一 个 新 变量 r, 它 不 会 自动 进入 数据 框 df 中 ， 
要 把 新 变量 赋值 到 数据 框 中 ， 可 以 用 
> df$r <- Height/Weight 
为 了 取消 连接 ， 只 要 调用 detach() (无 参数 即 可 ). 
注意 ， R 中 名 字 空 间 的 管理 是 比较 独特 的 ， 它 在 运行 时 保持 一 个 变量 搜索 
路 径 表 ,在 读 取 茶 个 变量 时 到 这 个 变量 搜索 路 径 表 中 由 前 向 后 查找 ,找到 最 前 的 
一 个 ; 在 赋值 时 总 是 在 位 置 1 赋值 (除非 特别 指定 在 其 它 位 置 赋 值 ). attach() 的 
缺 省 位 置 是 在 变量 搜索 路 径 表 的 位 置 2, detach() 缺 省 也 是 去 掉 位 置 2. 所 以 ， 
R 编程 的 一 个 常见 问题 是 当 你 误 用 了 一 个 自己 并 没有 赋值 的 变量 时 有 可 能 不 出 
错 ， 因 为 这 个 变量 已 在 搜索 路 径 中 某 个 位 置 有 定义 ， 这 样 不 利于 程序 的 调试 ， 需 
要 留心 这 样 的 问题 . 
attach() 除了 可 以 连接 数据 框 ， 也 可 以 连接 列表 . 


2.6.3 ”列表 与 数据 框 的 编辑 


如 果 需 要 对 列表 或 数据 框 中 的 数据 进行 编辑 ， 也 可 调用 函数 edit () 进行 编 
辑 、 修 改 ， 其 命令 格式 为 
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> xnew <- edit(xold) 
其 中 xold 是 原 列 表 或 数据 框图 ， xnew 是 修改 后 的 列表 或 数据 框 . 注意 ， 原 数 
据 xold 并 没有 改动 ， 改 动 的 数据 存放 在 xnew 中 . 
函数 edit() 也 可 以 对 向 量 ， 数 组 或 矩阵 类 型 的 数据 进行 修改 或 编辑 . 


2.7 读 、 写 数据 文件 


在 应 用 统计 学 中 ， 数 据 量 一 般 是 比较 大 的 ， 变 量 也 很 多 . 如果 用 上 述 方法 来 
建立 数据 集 ， 是 不 可 取 的 . 上 述 方法 适用 于 少量 数据 、 少 量变 量 的 分 析 . 对 于 大 
量 数据 和 变量 ， 一 般 应 在 其 他 软件 中 输入 (或 数据 来 源 是 其 他 软件 的 输出 结果 )， 
再 读 到 R 中 处 理 . R 软件 有 多 种 读数 据 文件 的 方法 . 

另外 ， 所 有 的 计算 结果 也 不 应 只 在 屏幕 上 输出 ,应 当 保存 在 文件 中 ， 以 备 使 
用 . 

这 里 介绍 一 些 R 软件 读 、 写 数据 文件 的 方法 . 





2.7.1 读 纯 文本 文件 


读 纯 文本 文件 有 两 个 函数 ， 一 个 是 read.table() 函数 ， 另 一 个 是 scan() 





函数 
1. read.table( ) 函数 


read.table() 函数 是 读 表 格 形式 的 文件 . 知 “ 住 宅 ” 数据 已 经 输入 一 个 纯 文 
本 文件 "houses.data" 中 ， 其 格式 如 下 : 
Price Floor Area Rooms Age Cent.heat 


01 52.00 111.0 830 5 6.2 no 


02 54.75 128.0 710 5 7.5 no 
03 57.50 101.0 1000 5 4.2 no 
04 57.50 131.0 690 6 8.8 no 
05 59.75 93.0 900 5 1.9 yes 


其 中 第 一 行为 变量 名 ， 第 一 列 为 记录 序号 . 
利用 read.table() 函数 可 读 入 数据 ， 如 


> rt <- read.table('"houses.data') 
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此 时 变量 rt 是 一 个 数据 框 ， 其 形式 与 纯 文本 文件 "houses .data" 格式 相同 .我 
们 对 它 进 行 测试 ， 得 到 

> is.data.frame (rt) 

[1] TRUE 
如 果 数 据 文件 中 没有 第 一 列 记 录 序 号 ， 如 


Price Floor Area Rooms Age Cent.heat 


52.00 111.0 830 5 6.2 no 


54.75 128.0 710 5 7.5 no 
57.50 101.0 1000 5 4.2 no 
57.50 131.0 690 6 8.8 no 
59.75 93.0 900 5 1.9 yes 
则 相应 的 命令 改 为 
> rt <- tfead.table("houses .dqata"，header=TRUE) 
在 rt 会 自动 加 上 记录 序号 . 
read.table() 的 使 用 格式 为 
read.table(file, header = FALSE, sep = "", quote = "\"’", 
dec = ".", row.names, col.names, as.is = FALSE， 
na.strings = "NA", colClasses = NA, nrows = -1, 


skip = 0, check.names = TRUE, 
fill = !Iblank.lines.skip, strip.white = FALSE, 
blank.lines.skip = TRUE, comment.char = "#") 
其 中 file 是 读 入 数据 的 文件 名 header=TRUE 表示 所 读数 据 的 第 一 行为 变量 
名 ;否则 ( 缺 省 值 ) 第 一 行 作为 数据 . sep 是 数据 分 隔 的 字符 ， 通 常用 空格 作为 
分 隔 符 . skip 表示 读数 据 时 跳 过 的 行 数 ， 其 他 参数 的 用 法 请 见 帮助 . 
2. scan( ) 函数 
scan() 函数 可 以 直接 读 纯 文本 文件 数据 . 例如 ， 有 15 名 学 生 的 体重 数据 已 
经 输入 一 个 纯 文本 文件 "weight .data" 中 ， 其 格式 如 下 : 


75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 
66.6 64.0 57.0 69.0 56.9 50.0 72.0 


则 
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W <- Scan("weight.dqata'") 
将 文件 中 的 15 个 数据 读 入 ， 并 赋 给 向 量 w. 
假设 数据 中 有 不 同 的 属性 ， 如 下 面 
172.4 75.0 169.3 54.8 169.3 64.0 171.4 64.8 166.5 47.4 
171.4 62.2 168.2 66.9 165.1 52.0 168.8 62.2 167.8 65.0 
165.8 62.2 167.8 65.0 164.4 58.7 169.9 57.5 164.9 63.5 
是 100 名 学 生 的 身高 和 体重 的 数据 ， 放 在 纯 文 本 数据 文件 "h_w.data", 其 中 第 
1、3、5、7、9 列 是 身高 (cm), 第 2 、4、6、8 、10 列 是 体重 (kg), 则 
> inp <- scan("h_w.data", list(height=0, weight=0)) 
将 数据 读 入 ， 并 以 列表 的 方式 赋 给 变量 inp. 
> is.list(inp) 
[1] TRUE 
可 以 将 由 scan() 读 入 的 数据 存放 成 窍 阵 形 式 ， 如 果 将 “weight.data” 中 的 
体重 数据 放 在 一 个 3 行 5 列 的 窍 阵 中 ， 而 且 数 据 按 行 放置 ， 其 命令 格式 为 
> X <- matrix(scan("weight.dqata"，0) ， 
nrow=3, ncol=5, byrow=TRUE) 
Read 15 items 
>X 
[,1] [,2] [,3] [,4] [,5] 
[1,] 75.0 64.0 47.4 66.9 62.2 
[2,] 62.2 58.7 63.5 66.6 64.0 
[3,] 57.0 69.0 56.9 50.0 72.0 
由 前 面 讲 到 的 函数 matrix() 的 用 法 ， 下 面 两 种 写法 是 等 价 的 ， 


> XxX <- matrix(scan("input.dat", 0), ncol=5, byrow=TRUE) 





> XxX <- matrix(scan("input.dat", 0), nrow=3, byrow=TRUE) 


也 可 以 用 scan() 函数 直接 从 屏幕 上 输 数据 。 如 
> x<-scan() 
1: 13579 
6 : 
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Read 5 items 
>xX 


[1] 13579 
scan() 读 文 件 的 一 般 格式 为 


scan(file = "", what = double(0), nmax = -1, 
n= -1, sep = "", 
quote = if(identical(sep, "\n")) "" else "i \"", 
dec = ".", skip = 0, nlines = 0, na.strings = "NA", 


flush = FALSE, fill = FALSE, strip.white = FALSE， 
quiet = FALSE, blank.lines.skip = TRUE， 
multi.line = TRUE, comment.char = "",， 
allowEscapes = TRUE) 
其 中 file 为 文件 名 . ”what 为 指定 一 个 列表 ， 则 列表 每 项 的 类 型 为 需要 读 取 的 
类 型 skip 控制 可 以 跳 过 文件 的 开始 不 读 行 数 。 sep 控制 可 以 指定 数据 间 的 
分 隔 符 ， 其 它 参 数 见 帮助 文件 . 
2.7.2 读 其 它 格式 的 数据 文件 
R 软件 除了 可 以 读 纯 文 本 文件 外 ， 还 可 以 读 其 他 统计 软件 格式 的 数据 ， 如 
Minitab 、 S-PLUs 、 SAS 、 SPSS 等 . 要 读 入 其 他 格式 数据 库 ， 必 须 先 调 入 
"foreign" 模块 . 它 不 属于 R 的 内 在 模块 , 需要 在 使 用 前 调 入 . 调 入 的 方法 很 简 
便 ， 只 需 键入 命令 : 
> library (foreign) 
或 用 2.1.3 节 介 绍 的 载 入 程序 包 调 入 . 
1. 读 SPSS 、SAS 、S-PLUS 、 Stata 数据 文件 


已 知 数据 由 表 2.2 所 示 . 分 别 存 成 SPSS 数据 文件 ("educ_scores .sav") 、 
SAS 数据 文件 ("educ_scores .xpt") 、 S-PLUS 数据 文件 ("educ_scores") 和 
Stata 数据 文件 ("educ_scores .dta"). 

读 SPSS 文件 的 格式 是 : 

> rs <- read.spss("educ_scores.sav'") 


其 变量 rs 是 一 个 列表 ， 如 果 打 算 形成 数据 框 ， 则 命令 格式 为 
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表 2.2: 某 学 院 学 生 数 据 


Sex of 
Language | Analogical | Geometric student 
Aptiude | Reasoning | Reasoning | (Male =1) 

Student (zx1) (x2) (zx3) (za) 





于 有 局 OQ 吕 


> rs<-read.spss("educ_scores.sav", to.data.frame=TRUE) 
读 SAS 文件 的 格式 是 : 
> rx <- read.xport("educ_scores.xpt") 
其 变量 rx 是 一 个 数据 框 . 
读 S-PLUs 文件 的 格式 是 : 
> rs <- read.S("educ_scores'") 
其 变量 rs 是 一 个 数据 框 . 
读 Stata 文件 的 格式 是 : 
> rd <- read.dta("educ_scores.dta") 
其 变量 rd 是 一 个 数据 框 . 
2. 读 Excel 数据 文件 
将 上 述 数 据 存 为 Excel 表 ("educ_scores.xls"), 但 R 软件 无 法 直接 读 Excel 
表 ， 需 要 将 Excel 表 进 入 转化 成 其 他 格式 ， 然 后 才能 被 R 软件 读 出 . 
第 一 种 转化 格式 是 将 Excel 表 转 化 成 “文本 文件 制 表 符 分 隔 ) ”文件 ， 如 图 
2.18 所 示 . 
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icrosoft Excel - educ_scores 另存 为 
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轩 5 六 











次 件 名 他 ) : educ_scores 
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图 2.18: 将 Excel 表 存 为 文本 文件 


用 也 数 read.delim() 读 该 文本 文件 ， 即 


> rd <- read.delim('"educ_scores.txt") 
得 到 的 变量 rd 是 一 个 数据 框 . 
第 二 种 转化 格式 是 将 Excel 表 转 化 成 “CSV( 豆 号 分 隔 )” 文 件 ， 如 图 2.19 所 


用 函数 read.csv() 读 该 文本 文件 ， 即 


> rc <- read.csv("educ_scores.csv') 


得 到 的 变量 rc 是 一 个 数据 框 . 
2.7.3 ”链接 府 入 的 数据 库 


R 软件 中 提供 了 50 多 个 数据 库 和 其 他 可 利用 的 软件 包 ， 可 以 用 data() 画 
数 调用 这 些 数据 库 与 软件 包 . 用 
> data() 
命令 , 列 出 在 基本 软件 包 (base) 所 有 可 利用 的 数据 集 . 如 果 装 载 某 一 个 数据 集 ， 
只 需 在 括号 中 加 入 相应 的 名 字 ， 如 


> data(infert) 
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icrosoft Excel - educ_scores 另存 为 


保存 位 置 诺 ) : 的 NyWorkSpace 





hl dS 


bs 
[| 
DD 





| |Al BclDIEI 
| 1 colllcol2|col3|col4|col5| 
Wy EE EE ST | 
3B | eg sl 9 1 
Pale [T 5 2 "= ol 
sib | 3 4d 3 
slE | 1 1o 2 aol 
?le | 12 15| 1 dl 
gle | 1 4 1 1 

FE EE WE WE EE 
ET EE I EE | 
a | | 
112) | | 


12 





玄 件 名 他 ) : educ_scores 


保存 类 型 r) Ea 





[En 
< 





图 2.19: 将 Excel 表 存 为 CSV 文件 


如 果 需 要 从 其 他 的 软件 包 链 接 数据 ， 可 以 使 用 参数 package, 例如 ， 
> data(package='nls") 
> data(Puromycin,package="nls") 
如 果 一 个 软件 包 已 被 library 附加 在 库 中 ， 则 这 个 数据 库 将 自动 地 被 包含 在 其 
中 如 
> library(nls) 
> datal) 


> data(Puromycin) 


在 data() 中 ， 除 包含 基本 软件 包 (base) 还 包含 nls 软件 包 . 
2.7.4 ” 写 数 据 文 件 


1. write( ) 函数 
write() 函数 写 数 据 文件 的 格式 是 


write(x, file = "data", 


ncolumns = if(is.character(x)) 1 else 5, 
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append = FALSE) 
其 中 x 是 数据 ， 通 常 是 惩 阵 ， 也 可 以 是 向 量 . file 是 文件 名 ( 缺 省 时 文件 名 为 
"data"). append=TRUE 时 ， 在 原文 件 上 填 加 数据 ， 否 则 (FALSE, 缺 省 值 ) 写 一 个 
新 文件 ， 其它 参 数 见 帮 助 文件 . 


2. write.table( ) 函数 和 write.csv( ) 函数 


对 于 列表 数据 或 数据 框 数 据 ， 可 以 用 write.table() 函数 或 write.csv() 
函数 写 纯 文本 格式 的 数据 文件 ， 或 CSV 格式 的 Excel 数据 文件 ， 例 如 ， 
> df <- data.frame( 
Name=c("Alice", "Becka", "James", "Jeffrey", "John'"), 
Sex=cC"F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5, 65.3, 57.3, 62.5, 59.0), 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
) 
> write.table(df, file="foo.txt") 
> write.csv(df, file="foo.csv'") 
write.table() 函数 和 write.csv() 函数 的 使 用 格式 为 
write.table(x, file = "", append = FALSE, quote = TRUE， 
Sep =" ", eol = "\n", na = "NA", dec = ".", 
row.names = TRUE, col.names = TRUE， 


qmethod = c("escape", "double'")) 


write.csv(..., col.names = NA, sep = ",", 
qmethod = "double") 
其 中 x 是 对 象 ， file 是 文件 名 . append=TRUE 时 , 在 原文 件 上 填 加 数据 ;否则 
(FALSE, 缺 省 值 ) 写 一 个 新 文件 . sep 是 数据 间隔 字符 .其 它 参 数 见 帮助 文件 . 


2.8 ”控制 流 


R 是 一 个 表达 式 语言 ， 其 任何 一 个 语句 都 可 以 看 成 是 一 个 表达 式 . 表达 式 之 
间 以 分 号 分 隔 或 用 换行 分 隔 . 表达 式 可 以 续 行 ， 只 要 前 一 行 不 是 完整 表达 式 ( 比 








2.8 控制 流 


如 末尾 是 加 减 乘 除 等 运算 符 ， 或 有 未 配对 的 括号 ) 则 下 一 行为 上 一 行 的 继续 . 


者 干 个 表达 式 可 以 放 在 一 起 组 成 一 个 复合 表达 式 ， 作 为 一 个 表达 式 使 用 . 


合用 花 括号 “{ ]” 表示 . 

R 语言 也 提供 了 其 它 高 级 程序 语言 共有 的 分 支 、 循 环 等 程序 控制 结构 . 
2.8.1 ”分 支 语句 

分 支 语句 有 if / else 语句 、 switch 语句 . 

1. 并 / else 语句 

if / else 语句 是 分 支 语句 中 主要 的 语句 ， if / else 语句 的 格式 为 


if(cond) statement_1 


if(cond) statement_1 else statement_2 
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组 


第 一 句 的 意义 是 : 如 果 条 件 cond 成 立 , 则 执行 表达 式 statement_1; 否则 跳 过 . 
第 二 名 的 意义 是 : 如 果 条 件 cond 成 立 ， 则 执行 表达 式 statement_1; 否则 执行 


表达 式 statement_2. 
例如 ， 
if( any(X <= 0) ) y <- log(1+X) else y <- log(x) 
注意 ， 此 命令 与 下 面 的 命令 
y <- if( any(x <= 0) ) log(1i+x) else log(x) 
等 价 . 
对 于 if / else 语句 ， 还 有 下 面 的 用 法 
if ( cond_1 ) 
statement_1 
else if ( cond_2) 
statement_2 
else if ( cond_3) 
statement_3 
else 


statement_4 
2. switch 语句 
switch 语句 是 多 分 支 语 句 ， 其 使 用 方法 是 : 
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switch (statement, list) 
其 中 statement 是 表达 式 ， 1ist 是 列表 ， 可 以 用 有 名 定义 ， 如 果 表 达 式 的 返回 
值 在 1 到 length(1list), 则 返回 列表 相应 位 置 的 值 ， 否 则 返回 “NULL” 值 . 例 
如 ， 





> 区 3 

> switch(x, 2+2, mean(1:10), rnorm(4)) 

[1] 0.8927328 -0.7827752 1.0772888 1.0632371 

> switch(2, 2+2, mean(1:10), rnorm(4)) 

[1] 5.5 

> switch(6, 2+2, mean(1:10), rnorm(4)) 

NULL 
当 list 是 有 名 定义 时 ， statement 等 于 变量 名 时 ， 返 回 变 量 名 对 应 的 值 ;否则 
返回 “NULL” 值 . 例如， 

> y <- "fruit" 

> switch(y,fruit="banana" ,vegetable="broccoli",meat="beef") 


[1] "banana" 


2.8.2 ”中 止 语 名 与 空 语句 


中 止 语 句 是 break 语句 ， break 语句 的 作用 是 中 止 循环 ， 使 程序 跳 到 循环 
以 外 .至 语句 是 next 语句 ， next 语句 是 继续 执行 ， 而 不 执行 某 个 实质 性 的 内 
容 . 关于 break 语句 和 next 语句 的 例子 ， 将 结合 循环 语句 来 说 明 . 


2.8.3 ”循环 语句 
循环 语句 有 for 循环 、 while 循环 和 repeat 循环 语句 . 
1. for 循环 语句 
for 循环 的 格式 为 


> for (name in expr_1) expr_2 


其 中 name 是 循环 变量 ， expr_l 是 一 个 向 量 表达 式 (通常 是 个 序列 ， 如 1:20)， 
expr_2 通常 是 一 组 表达 式 . 
如 构造 一 个 4 阶 的 Hilbert 矩阵 ， 
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> n<-4; x<-array(0，dim=c(n,n)) 
> for (i in 1:n){ 
for (j in 1:n){ 
x[i,j]<-1/(i+j-1) 


[,1] [,2] [,3] [ ,4] 
[1,] 1.0000000 0.5000000 0.3333333 0.2500000 
[2,] 0.5000000 0.3333333 0.2500000 0.2000000 
[3,] 0.3333333 0.2500000 0.2000000 0.1666667 
[4,] 0.2500000 0.2000000 0.1666667 0.1428571 


2. while 循环 语句 
while 循环 语句 while 语句 的 格式 为 


> while (condition) expr 
当 条 件 condition 成 立 ， 则 执行 表达 式 expr. 例如 ,编写 一 个 计算 1000 以 内 的 
Fibonacci 数 . 
> f<-1; f[2]<-1; i<-1 
> while (f[i]+f[i+1]<1000) 荆 
f [i+2] <-f [i] +f [i+1] 
i<-i+1; 
} 
> 于 


[1] 1 1 2 3 5 8 13 21 34 55 89 144 
[13] 233 377 610 987 


3. repeat 循环 语句 
repeat 语句 的 格式 为 


> repeat expr 


repeat 循环 依赖 break 语句 跳出 循环 . 例如 ,用 repeat 循环 编写 一 个 计算 1000 
以 内 的 Fibonacci 数 的 程序 . 
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> f<-1; f[2]<-1; i<-1 
> repeat { 
f [i+2] <-f [i]+f [i+1] 
i<-i+1 
if (f[i]+f[i+1]>=1000) break 
} 


或 将 条 件 语句 改 为 if (f[i]+f[i+1]<1000) next else break, 也 有 同样 的 计 
算 结 果 . 


2.9 编写 自己 的 函数 


R 软件 允许 用 户 自 己 创建 模型 的 目标 函数 ， 有 许多 R 函数 存 贮 为 特殊 的 内 
部 形式 ， 并 可 以 被 进一步 的 调用 . 这样 在 使 用 时 可 以 使 语言 更 有 力 、 更 方便 ， 而 
且 程 序 也 更 美观 . 学 习 写 自 己 的 程序 是 你 学 习 使 用 R 语言 的 主要 方法 之 一 . 

事实 上 ， BR 系统 提供 的 绝 大 多 数 函 数 ， 如 mean(), var(), postscript() 
等 ， 是 系统 编写 人 员 写 在 R 语言 中 的 函数 ， 与 你 自己 写 的 函数 本 质 上 没有 多 大 
差别 . 

函数 定义 的 格式 如 下 ， 

> name <- function(arg_1，arg_2，...) expression 


expression 是 及 中 的 表达 式 (通常 是 一 组 表达 式 ), arg_1，arg_2，... 表示 函数 
的 参数 ,表达 式 中 ， 放 在 程序 最 后 的 信息 是 函数 的 返回 值 ， 返 回 值 可 以 是 向 量 、 
数组 (矩阵 ) 、 列 表 或 数据 框 , 

调用 函数 的 格式 为 name (expr_1，expr_2，...), 并且 在 任何 时 调用 都 是 合 
法 的 . 

在 调用 自己 编写 的 函数 (程序 ) 时 ， 需 要 将 已 写 好 的 函数 调 到 内 存 中 ， 即 使 
用 2.1.3 节 介 绍 的 “输入 RB 代码 . . . ”命令 ， 执 行 source() 函数 . 关于 函数 的 调 
用 ， 后面 的 各 章 还 会 有 介绍 . 

















2.9.1 ”简单 的 例子 
与 其 他 程序 一 样 ， R 可 以 很 容易 地 编写 自己 需要 的 函数 . 
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例 2.4 编写 一 个 用 二 分 法 求 非 线性 方程 根 的 函数 ， 并 求 方 各 


23 一 7Z 一 1=0 


在 区 间 [1,2] 内 的 根 ， 精 度 要 求 = 一 10-6. 
解 : 取 初 始 区 间 [a, 路 当 f(a) 与 f(5) 异 导 ， 作 二 分 法 计算 ; 否则 停止 计算 
(输出 计算 失败 信息 ). 
二 分 法 计算 过 程 如 下 ， 取 中 点 x = 哇 , 若 f(a) 与 f(z) 异 导 ， 则 置 = 7 
否则 a = zx. 当 区 间 长 度 小 于 指定 要 求 时 ， 停 止 计算 . 
编写 二 分 法 程序 ， 程 序 名 : ”bisect.R. 
fzero <- function(f, a, b, eps=1e-5)1{ 
if (f(a)*f(b)>0) 
list(fail="finding root is fail!") 
elset 
repeat { 
if (abs (b-a)<eps) break 
x <- (at+b)/2 
if (f(a)*f(x)<0) b<-x else a<-x 
} 
list(root=(a+b)/2, fun=f (x)) 


} 

在 二 分 法 求 根 的 函数 (程序 ) 中 , 输入 值 £ 是 求 根 的 函数 ，a，b 是 二 分 法 的 
左右 端点 . eps=1e-5 是 精度 要 求 ， 是 有 名 参数 (后 面 将 介绍 ). 函数 (程序 ) 的 返 
回 值 是 列表 ， 当 初始 区 间 不 满足 要 求 时 ， 返 回 值 为 “finding root is fail”( 求 根 失 
败 ); 当 满 足 终止 条 件 时 ， 返 回 值 为 方程 根 的 近似 值 和 在 近似 点 处 的 函数 值 . 

建立 求 根 的 非 线性 函数 

f<-function(x) x 3-x-1 
求 它 在 区 间 [1,2] 内 的 根 . 

> fzero(f, 1, 2, 1e-6) 

$root 

[1] 1.324718 
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$fun 
[1] -1.857576e-06 
事实 上 ， 大 家 不 用 编写 求 根 函数 ， 及 软件 已 提供 了 求 一 元 方程 根 的 函数 
uniroot(), 其 使 用 格式 为 


uniroot(f, interval, 








lower = min(interval), upper = max(interval), 
tol = .Machine$double.eps“°0.25, maxiter = 1000, ...) 
例如 ， 要 求 例 2.4 的 根 ， 只 需 输 入 命令 
> uniroot (f , c(1,2)) 
就 可 得 到 
$root 
[1] 1.324718 
$f .root 
[1] -5.634261e-07 
$iter 
[1] 7 
$estim.prec 
[1] 6.103516e-05 
其 计算 结果 与 我 们 编写 的 程序 的 计算 结果 是 相同 的 . 
下 面 编写 一 个 与 统计 有 关 的 函数 一 计算 两 样本 的 了 统计 量 . 
例 2.5 已 知 两 样本 
A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
计算 两 样本 的 了 统计 量 . 
解 : 当 两 样本 的 方差 相同 ， 且 未 知 ， 则 了 统计 量 的 计算 公式 为 
=) 


ye (2.1) 
5 和 二 下 二 
其 中 
2 DSI+ (mn 1)52 


2 
i ; (2.2) 
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X,Y 分 别 是 两 组 数据 的 样本 均值 ， 57, 53 分 别 是 两 组 数据 的 样本 方差 ， ma, n2 
分 别 为 两 组 数据 的 个 数 . 
按照 式 (2.1) 和 (2.2) 编写 相应 的 程序 (程序 名 : twosam.R ) 
twosam <- function(y1，y2) { 
ni <- length(y1); n2 <- length(y2) 
yb1l1 <- mean(y1); yb2 <- mean(y2) 
sil <- Var(y1); s2 <- Var(y2) 
s <- ((n1i-1)*si + (n2-1)*s2)/(ni+n2-2) 
(yb1 - yb2)/sqrt(s*(1/ni1 + 1/n2)) 
} 
在 函数 (程序 ) 中 ， 输 入 值 yt ，y2 是 需要 计算 工 统计 量 的 两 组 数据 函数 
(程序 ) 的 返回 值 是 数值 型 变量 ， 给 出 相应 的 工 统计 量 . 
输入 数据 A, B, 并 计算 了 统计 量 . 
> A <- c(79.98，80.04，80.02，80.04，80.03，80.03， 
80.04，79.97，80.05，80.03，80.02，80.00，80.02) 
> B <- c(80.02，79.94，79.98，79.97，79.97，80.03， 
79.95，79.97) 
> twosam(A,B) 
[1] 3.472245 


在 后 面 我 们 还 会 讲 到 ， 用 7 统计 量 来 估计 两 样本 均值 是 否 相 同 . 
2.9.2 ”定义 新 的 二 元 运算 

R 软件 可 以 定义 的 二 元 运算 ， 其 形式 为 hanything%. 设 x,y 是 两 个 向 量 ， 
定义 7 与 y 的 内 积 

(x,y) = exp(—llz — yl /2), 
其 运算 符号 用 %!% 表示 ， 则 二 元 运算 的 定义 如 下 
WIN%" <- function(x， y) {exp(-0.5*(x-y) V*Y (x-y))} 

2.9.3 ”有 名 参数 与 省 缺 


如 果 用 这 种 形式 “ name=object ”给 出 被 调用 函数 中 的 参数 ， 则 这 些 参数 可 
以 按照 任何 顺序 给 出 ， 如 定义 如 下 函数 
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> fun1 <- function(data, data.frame, graph, limit) { 
[function body omitted] 
} 


则 下 面 的 三 种 调用 方法 
> ans <- funi(d, df, TRUE, 20) 


> ans <- funi(d, df, graph=TRUE, limit=20) 
> ans <- funi(data=d, limit=20, graph=TRUE, data.frame=df) 


都 是 等 价 的 . 


如 果 在 例 2.4 中 ， 其 精度 要 求 取 le-5(10-5), 则 不 必 输 入 精度 要 求 ， 直 接 输 
入 区 间 端 点 即 可 . 


> fzero(1,2) 
$root 

[1] 1.324718 

$fun 

[1] -1.405875e-05 


下 面 利用 有 名 参数 的 方法 编写 一 个 求 非 线性 方程 组 根 的 Newton 法 的 程序 . 


例 2.6 编写 求 非 线性 方程 组 解 的 Newton 法 的 程序 , 并 用 此 程序 求解 非 线 性 方程 
组 


ne 


(x1 十 1)z2 = (371 十 1) 二 0 


的 解 ， 取 初始 点 (0 = (0,1)7, 精度 要 求 = 一 10-5. 
解 : 求解 非 线 性 方程 组 


f(x)=0, f:R*— R*EeC! 
的 Newton 法 的 迭代 格式 为 


(pHD 一 [T(z®)]-1F (x), k= 0,1,..- 
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其 中 J(z) 为 函数 f(x) 的 Jacobi 矩阵 ， 即 


2 2 .0 
OX1 Ox2 Ozn 
2f2 3fp ... 2f 
J (7) OX1 Ox2 Ozn 
ofn Qfn ... fn 
OX1 Ox2 On 


因此 ， 相 应 的 程序 (程序 名 : ”Newtons.R ) 为 
Newtons<-function (fun, x, ep=1le-5, it_max=100)+ 
index<-0; k<-1 
While (k<=it_max){ 
xl <- x; obj <- fun(x); 
x <- x - solve(obj$J], obj$f); 
norm <- sqrt((x-x1) %*% (x-x1)) 
if (norm<ep){ 
index<-1; break 
} 
k<-k+1 
} 
obj <- fun(x); 
list(root=x, it=k, index=index, FunVal= obj$f) 
} 
在 此 函数 (程序 ) 中 ， 输 入 变量 有 ， fun 是 由 方程 构成 的 函数 ， 具 体形 式 在 
下 面 介绍 . x 是 初始 变量 ， ep 是 精度 要 求 ， 缺 省 时 为 10“. it_max 是 最 大 和 迭 
代 次 数 ， 缺 省 时 为 100. 
函数 (程序 ) 以 列表 的 形式 作为 输出 变量 ， 有 : root 是 方程 解 的 近似 值 . 
让 是 从 代 次 数 . index 是 指标 ，index=1 表明 计算 成 功 ， index=0 表明 计算 失 
败 ._ FunVal 是 方程 在 root 处 的 函数 值 . 
编写 求 方程 的 函数 (程序 名 :funs .BR) 
funs<-function(x){ 


f<-c(x[1] “2+x[2] “2-5, (x[1]+1)*x[2]-(3*x[1]+1)) 
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J<-matrix(c(2*x[1] , 2*x[2], x[2]-3, x[1]j+1), 
nrow=2, byrow=T) 
list(f=f, J=J) 
} 
函数 (程序 ) 的 输入 变量 是 x. 在 函数 (程序 ) 中 ，£ 是 所 求 方 程 的 函数 ，J 是 
相应 的 Jacobi 矩阵 ， 函 数 的 输出 以 列表 形式 给 出 ， 输 出 函数 值 和 相应 的 Jacobi 
矩阵 . 
下 面 求解 该 方程 
> Newtons (funs, c(0,1)) 
$root 
E112 
$it 
[1] 6 
$index 
[1] 1 
$FunVal 
[1] 1.598721e-14 6.217249e-15 


即 方程 的 解 x* = (1 2) ,总 共 迭 代 了 6 次 . 
2.9.4 递归 函数 











R 函数 是 可 以 递归 的 , 可 以 在 函数 自身 内 定义 函数 本 喘 . 下 面 的 例子 是 用 递 
归 函 数 计算 数值 积 
例 2.7 用 递归 函数 计算 数值 积分 厂 至 , 精度 要 求 < = 10-5. 

解 : 采用 上 自动 选择 步 长 的 复 化 梯形 公式 ， 其 方法 是 : 每 次 将 区 间 二 等 分 ， 在 
子 区 间 上 采用 梯形 求 积 公式 ， 如 果 计 算 满 足 精 度 要 求 或 达到 最 大 迷 代 次 数 ， 则 停 
止 计算 ， 否 则 继续 将 区 间 对 分 ,编写 相应 的 计算 程序 ( 程序 名 :area.R ) 


area <- function(f, a, b, eps = 1.0e-06, lim = 10) { 








funi <- function(f, a, b, fa, fb, a0, eps, lim, fun) { 
d <- (a + b)/2; h <- (b - a)/4; fd <- f(d) 
al <- h * (fa + fd); a2 <- h * (fd + fb) 
if(abs(a0 - al - a2) < eps || lim == 0) 
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return(al + a2) 
else { 
return(fun(f, a, d, fa, fd, ail, eps, lim - 1, fun) 
+ fun(f, d, b, fd, fb, a2, eps, lim - 1, fun)) 


J 
fa <- f(a); fb <- f(b); a0 <- ((fa + fb) * (b - a))/2 
funi(f, a, b, fa, fb, a0, eps, lim, fun1) 
} 
程序 的 输入 变量 ， f 是 被 积 函数 ， a,b 是 积分 的 端点 ， eps 是 积分 精度 要 
求 ， 缺 省 值 为 10“. 1im 是 对 分 区 间 的 上 限 ， 缺 省 值 为 10, 即 被 积 区 间 最 多 被 等 
分 为 2° 个 子 区 间 . 输出 变量 为 积分 值 . 
area 函数 相当 于 主 程序 ， 首 先 用 梯形 公式 计算 出 积分 的 近似 值 ， 然 后 调用 
函数 fun1. 
funl 函数 相当 于 子 程序 ， 该 函数 是 采用 递归 的 定义 方式 编写 的 函数 ， 其 意 
义 是 : 将 区 间 对 分 ， 采 用 复 化 求 积 公 式 ， 若 本 次 的 计算 值 与 上 一 次 的 计算 值 相差 
小 于 精度 要 求 eps 或 1im = 0 时 ， 则 停止 计算 ， 否则 分 别 调用 自身 函数 . 
下 面 计算 各 分 ， 先 定义 函数 
> f <- function(x) 1/x 
再 计算 其 积分 值 
> quad<-area(lf,1,5); quad 
[1] 1.609452 


该 积分 的 精确 值 为 ln 5 = 1.609438. 








习题 二 


2.1 建立 一 个 呈 文 件 ， 在 文件 中 输入 变量 x = (1,2,3)7,y = (4,5,6) 了 ,并 作 以 
下 运算 . 

(了) 计算 z==2x 十 y 十 e, 其 中 e= (1,1,1)?; 

(2) 计算 xz 与 y 的 内 积 ; 
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(3) 计算 2 与 9 的 外 积 . 
2.2 将 1,2,.…,20 椅 成 两 个 4x5 阶 的 算 阵 ， 其 中 算 阵 4 是 按 列 输入 ， 矩 阵 B 
是 按 行 输入 ， 并 作 如 下 运算 . 
(1 C=A+B; 
(2) D = AB; 
(3) E = (eij)nxn; 其 中 eij = aij Di 
(4) 下 是 由 A 的 前 3 行 和 前 3 列 构成 的 矩阵 ; 
(5) G 是 由 矩阵 B 的 各 列 构成 的 和 矩阵， 但 不 含 B 的 第 3 列 . 
2.3 构造 一 个 向 量 X, 向量 是 由 5 个 了 3 个 24 个 3 和 2 个 4 构成 注意 用 到 
rep() 函数 ， 
2.4 生成 一 个 5 阶 的 Hilbert 矩阵， 
rn 
1 十 了 一 工 
(1) 计算 Hilbert 算 阵 万 的 行列 式 ， 
( 纺 求 五 的 逆 矩 阵 ; 
(中 求 五 的 特征 值 和 特征 向 量 . 
2.5 已 知 有 5 名 学 生 的 数据 ， 如 表 2.3 所 示 . 用 数据 框 的 形式 读 入 数据 . 


表 2.3: 学 生 数 据 
Ry as | am | tm | 4 | A 


FH= (hp) hij = 1,7 一 到， 7 


1 42.0 
2 49.0 
3 41.5 
4 52.0 
5 45.5 





2.6 将 例 2.5 中 的 数据 表 2.3 的 数据 写成 一 个 纯 文 本 文件 ,用 函数 read.table() 
读 该 文件 ， 然 后 再 用 函数 write.csv() 写成 一 个 能 用 Brcel 表 能 打开 的 文件 ， 
并 用 PEzce! 表 打 开 . 
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2.7 编写 一 个 忆 程序 (函数 ) 输入 一 个 整数 n, 如 果 n < 0, 则 中 止 运算 ， 并 输 
出 一 铅 话 : “要 求 输入 一 个 正 整 数 ” 否则 ， 如 果 nn 是 偶数 ， 则 将 n 除 2, 并 赋 
给 n; 和 否则， 将 3n 十 1 赋 给 n. 不 断 循 环 ， 只 到 几 = 1 才 停 止 计算 ， 并 输出 一 各 
话 : “运算 成 功 ” 这 个 例子 是 为 了 检验 数论 中 的 一 个 简单 的 定理 ， 
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第 三 章 ”数据 描述 性 分 析 


统计 分 析 分 为 统计 描述 和 统计 推断 两 个 部 分 . 统计 描述 是 通过 绘制 统计 图 、 
编制 统计 表 、 计 算 统计 量 等 方法 来 表述 数据 的 分 布 特征 . 它 是 数据 分 析 的 基本 步 
又 ， 也 是 进行 统计 推断 的 基础 . 本 章 介绍 统计 描述 ， 也 就 是 数据 的 描述 性 分 析 ， 
关于 统计 推断 的 内 容 ， 将 在 后 面 各 章 陆 续 介 绍 . 

用 计算 机 软件 作 数 据 的 描述 性 分 析 ， 可 以 更 加 方便 、 直 观 ， 有 利于 对 统计 描 
述 的 理解 . 本 章 除 介绍 描述 统计 的 基本 概念 外 ， 重 点 介绍 如 何 运 用 R 软件 中 的 
函数 对 数据 进行 描述 性 分 析 . 


3.1 ”描述 统计 量 
已 知 一 组 试验 (或 观测 ) 数据 为 
XT1, Xo, Tn. 


它们 可 以 是 从 所 要 研究 的 对 象 的 全 体 一 总 体 X 中 取出 的 ， 这 n 个 观测 值 就 构 
成 一 个 样本 .在 某 些 简单 的 实际 问题 中 ， 这 n 个 观测 值 就 是 所 要 研究 问题 的 全 
体 ， 数据 分 析 的 任务 就 是 要 对 这 全 部 n 个 数据 进行 分 析 ， 提 取 数 据 中 包含 的 有 
用 信息 . 

数据 作为 信息 的 载体 ， 当 然 要 分 析 数 据 中 包含 的 主要 信息 ， 即 要 分 析 数 据 的 
主要 特征 . 也 就 是 说 ， 要 研究 数据 的 数字 特征 . 对 于 数据 的 数字 特征 ， 要 分 析 数 
据 的 集中 位 置 、 分 散 程 度 和 数据 分 布 等 . 


3.1.1 位置 的 度量 


所 谓 位 置 的 度量 就 是 那些 用 来 描述 定量 资料 的 集中 趋势 的 统计 量 . 常用 的 有 
均值 、 众 数 、 中 位 数 、 百 分 位 数 等 . 


1. 均值 
均值 (mean) 是 数据 的 平均 数 ， 均 值 ( 记 为 习 定义 为 


1 Nn 
京王 全》 六 3.1 
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它 描述 数据 取 值 的 平均 位 置 . 

在 R 软件 中 ， 可 用 mean() 函数 计算 样本 的 均值 ， 其 的 使 用 方法 是 

mean(x, trim = 0, na.rm = FALSE) 

其 中 x 是 对 象 (如 向 量 、 逢 阵 、 数 组 或 数据 框 ), trim 是 计算 均值 前 去 掉 与 均值 差 
较 大 数据 的 比例 ， 缺 省 值 为 0, 即 包括 全 部 数据 . 当 na.rm = TRUE 时 ,人 允许 数据 
中 有 缺失 数据 ， 函 数 的 返回 值 是 对 象 的 均值 . 

有 关 它 的 使 用 ， 将 用 例子 来 作 进一步 的 介绍 . 
例 3.1 已 知 15 位 学 生 的 体重 (单位 ， 千克 ) 


75.0 640 47.4 66.9 .622 622 58.7 63.5 
66.6 64.0 57.0 69.0 56.9 50.0 72.0 


求学 生体 重 的 平均 值 . 
解 : 利用 mean() 函数 求解 .建立 R 文件 (文件 名 : ”exam0301.R) 
W <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7，63.5, 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
Ww.mean <- mean(w); W.mean 
执行 exam0301.R 的 的 全 部 程序 得 到 ， 学 生体 重 的 均值 为 62.36. 
注意 ， 当 x 是 矩阵 (或 数组 ) 时 ， 函 数 mean() 的 返回 值 ， 并 不 是 向 量 , 而 是 
一 个 数 ， 即 冠 阵 中 全 部 数据 的 平均 值 ， 例 如 ， 
> x <- 1:12; dim(x)<-c(3,4) 





> mean(x) 

[1] 6.5 
与 mean(1:12) 的 返回 值 相同 ， 而 这 里 x 是 一 个 3 x 4 的 矩阵 . 

如 有 果 你 需要 得 到 甜 阵 各 行 或 各 列 的 均值 ,， 需要 调用 apply() 函数 ( 见 第 二 章 

2.5.5 市 ) 计算 ， 如 计算 窍 阵 各 行 的 均值 ， 

> apply(x,1,mean) 

[1] 5.5 6.5 7.5 
计算 甜 阵 各 列 的 均值 ， 

> apply (x,2,mean) 

[1] 2 5 811 
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如 果 x 是 数据 框 ， 则 mean() 的 返回 值 就 是 向 量 ， 如 
> mean(as.data.frame (x)) 
Vi V2 V3 V4 
2. 5 8.11 
可 以 看 出 它 是 按 列 求 平均 值 的 ， 其 中 命令 as .data.frame(x)( 见 第 二 章 2.6.2 证 ) 
是 将 矩阵 x 强制 转化 成 数据 框 . 
因此 , 今后 在 作 多 元 数据 分 析 时 ， 多 元 数据 的 输入 最 好 采用 数据 框 的 形式 ， 
这 样 便于 后 面 的 数据 处 理 . 
求 和 函数 sum() 是 与 求 均值 有 关 的 函数 ， 其 使 用 格式 为 
sum(..., na.rm = FALSE) 
参数 na.rm 的 意义 与 均值 函数 mean() 中 的 参数 意义 相同 . 
如 果 工 是 向 量 ， 函 数 length(x) 的 返回 值 是 向 量 x 的 长 度 ( 维 数 ). 因此 ， 
由 公式 (3.1), 例 3.1 的 均值 可 由 下 面 的 计算 得 到 ， 即 
> mean <- sum(w)/length(w); mean 
[1] 62.36 
可 以 看 出 ， 两 者 的 计算 是 相同 的 . 
但 如 果 在 数据 中 ， 某 些 数据 是 异常 值 ， 再 用 公式 (3.1) 就 不 合理 了 .也 就 是 
说 , 不 能 简单 地 用 mean(w) 计算 样本 均值 . 例如 ， 如 果 第 一 个 学 生 的 体重 少 输入 
一 个 点 ， 变 为 750 千克 ， 此 时 按照 式 (3.1) 计算 出 的 值 会 出 现 不 合理 的 现象 ， 看 
一 下 计算 结果 
> w[1] <- 750 
> Ww.mean <- mean(w); w.mean 
[1] 107.36 
学 生 的 平均 体重 为 107.36 和 干 克 ， 这 显然 是 不 合理 的 . 
如 果 采 用 下 述 方法 ， 可 以 减少 由 于 输入 误差 对 计算 的 影响 . 
> w.mean <- mean(w, trim=0.1); w.mean 
[1] 62.53846 
其 中 trin 的 取 值 在 0 至 0.5 之 间 ， 表示 在 计算 均值 前 需要 去 掉 异 常 值 的 比例 . 
利用 这 个 参数 可 以 有 效 的 改善 异常 值 的 对 计算 的 影响 . 
na.rm 是 控制 缺失 数据 的 参数 . 例如， 如 果 共 有 16 位 学 生 , 但 第 16 位 学 生 
的 体重 缺失 ， 如 果 按 照 通 常 的 计算 方法 ， 将 得 不 到 结果 . 
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> w.na <- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0，NA) 
> VW.mean <- mean(w.na); w.mean 
[1] NA 
选用 参数 na.rm = TRUE 可 以 很 好 地 处 理 这 个 问题 ， 看 一 下 计算 结果 . 
> Ww.mean <- mean(w.na, na.rm = TRUE) ; w.mean 
[1] 62.36 
对 于 sum() 函数 ， 此 参数 的 意义 是 相同 的 ， 即 na.rm = TRUE 表示 可 以 求 带 
有 人 缺失 数据 的 和 . 
与 均值 函数 mean() 相关 的 函数 还 有 weighted.mean(), 即 计算 数据 的 加 权 
平均 值 ， 具 体 的 使 用 格式 为 
weighted.mean(x, W, na.rm = FALSE) 
其 中 x 是 数值 向 量 ， 是 数据 x 是 权 ， 与 x 的 维 数 相同 ， 参 数 na.rm 的 意义 与 
mean() 函数 相同 .该 函数 可 以 对 矩阵 和 数组 计算 加 权 平 均值 ， 但 对 数据 框 不 适 
用 (对 于 数据 框 ， weighted.mean() 函数 的 计算 结果 与 矩阵 的 计算 结果 是 相同 
的 ， 而 mean() 函数 两 者 的 计算 结果 是 不 同 的 ). 


2. 顺序 统计 量 
设 n 个 数据 (观测 值 ) 按 从 小 到 大 的 顺序 排列 为 











20) < X02) 三 < Tn,), 











称 为 顺序 统计 量 (order statistic), 显然 ， 最 小 顺序 统计 量 为 za), 最 大 顺序 统计 量 
为 Xm). 
在 R 软件 中 ， sort() 给 观测 量 的 顺序 统计 量 ， 如 
> x <- c(75，64，47.4，66.9，62.2，62.2，58.7，63.5) 
> sort(x) 
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 
实际 上 , 函数 sort () 不 只 是 给 出 了 样本 的 顺序 统计 量 , 还 有 更 广泛 的 功能 ， 
其 使 用 格式 为 
sort(x, partial = NULL, na.last = NA, decreasing = FALSE， 
method = c("shell", "quick"), index.return = FALSE) 
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其 中 x 是 数值 、 或 字符 、 或 逻辑 型 何 量 . partial 是 部 分 排序 的 指标 向 量 . 
na.last 是 控制 缺失 数据 的 参数 ， 当 na.last = NA( 缺 省 值 ) 时 ， 不 处 理 缺失 数 
据 ; 当 na.last = TRUE 时 , 缺失 数据 排 在 最 后 ; 当 na.last = FALSE 时 , 缺失 数 
据 排 在 最 前 面 ， decreasing 是 逻辑 变量 , 控制 数据 排列 的 顺序 , 当 decreasing 
= FALSE ( 缺 省 值 ), 给 出 的 返回 值 ,是 由 小 到 大 排序 的 ; 如 果 decreasing = TRUE， 
则 函数 的 返回 值 由 大 到 小 排列 ， method 是 排序 的 方法 , 如 果 method = "shell" 
( 缺 省 值 ), 则 选择 Shell 排序 法 排序 , 其 运算 量 为 O(2%3); 如 果 method = "quick"， 
则 采用 快速 排序 法 排序 , 对 于 数值 型 向 量 , 快速 排序 法 的 运算 量 一 般 要 低 于 Shell 
排序 法 .index.return 是 逻辑 变量 , 是 控制 排序 下 标的 返回 值 , 当 index.return 
= TRUE 时 ( 缺 省 值 为 FALSE), 函数 的 返回 值 是 一 列表 , 列表 的 第 一 个 变量 $x 是 
排序 的 顺序 ， 第 二 个 变量 是 $ix 是 排序 顺序 的 下 标 对 应 的 值 . 


下 面 用 数值 例子 看 一 下 函数 sort () 中 各 种 参数 的 使 用 方法 .如 需要 将 数据 
由 大 到 小 排 ， 则 用 参数 decreasing = TRUE. 如 








> sort(x, decreasing = TRUE) 
[1] 75.0 66.9 64.0 63.5 62.2 62.2 58.7 47.4 


当 数 据 中 有 缺失 数据 时 ， 并 不 希望 处 理 缺 失 数据 ， 则 不 必 调 整 任 何 参数 . 如 


> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5) 
> sort(x.na) 


[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 


如 果 硕 望 在 排序 后 的 数据 中 保留 缺失 数据 , 并 将 缺失 数据 排 在 最 后 , 则 用 na.1ast 
= TRUE. 如 果 将 缺失 数据 排 在 最 前 ， 则 用 na.last = FALSE. 如 


> sort(x.na, na.last = TRUE) 
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 NA 
> sort(x.na, na.last = FALSE) 
[1] NA 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 


与 sort() 函数 相关 的 函数 有 : ”order() 给 出 排序 后 的 下 标 ;，rank() 给 出 
样本 的 秩 统计 量 ， 关 于 rank() 函数 在 第 五 章 还 会 介绍 ， 


3. 中 位 数 
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中 位 数 (median, 记 为 me) 定义 为 数据 排序 位 于 中 间 位 置 的 值 ， 即 


{ 7( 苇 +)) 当 n 为 奇数 时 ， a 
| 3 (z@ 十 zG40】 ， 当 n 为 偶数 时 . . 


中 位 数 描述 数据 中 心 位 置 的 数字 特征 . 大 体 上 比 中 位 数 大 或 小 的 数据 个 数 为 
整个 数据 的 一 半 . 对 于 对 称 分 布 的 数据 ,均值 与 中 位 数 比较 接近 ;对 于 侦 态 分 布 
的 数据 ,均值 与 中 位 数 不 同 . 中 位 数 的 又 一 显著 特点 是 不 受 异 常 值 的 影响 ， 具 有 
稳健 性 ， 因 此 它 是 数据 分 析 中 相当 重要 的 统计 量 . 

在 R 软件 中 ， 函 数 median() 给 观测 量 的 中 位 数 . 如 

> x <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7，63.5) 

> median(x) 

[1] 62.85 

median() 函数 的 使 用 格式 为 

median(x, na.rm = FALSE) 
其 中 x 是 数值 型 向 量 ， na.rm 是 逻辑 变量 ， 当 na.rm = TRUE 时 ， 子 数 可 以 处 理 
人 带 有 缺失 数据 的 向 量 ;否则 (na.rm = FALSE, 缺 省 值 ) 不 能 处 理 带 有 缺失 数据 的 
向 量 ， 如 

> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5) 

> median(x.na) 

[1] NA 

> median(x.na, na.rm = TRUE) 


[1] 62.85 


4. 百 分 位 数 


百 分 位 数 (percentile) 是 中 位 数 的 推广 ， 将 数据 按 从 小 到 大 的 排列 后 ， 对 于 
0 <p<1, 它 的 bp 分 位 点 定义 为 








| T (npl+1), 当 np 不 是 整数 时 ， ee 
Mp = 1 . 
3 (Ztng) 十 Znp+y)) ， 当 np 是 整数 时 ， 


其 中 lnp| 表示 np 的 整数 部 分 . 
2 分 位 数 又 称 为 第 100p 百 分 位 数 . 大 体 上 整个 样本 的 100p 的 观测 值 不 超过 
2 分 位 数 . 如 0.5 分 位 数 mos( 第 50 百 分 位 数 ) 就 是 中 位 数 m。. 在 实际 计算 中 ， 
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0.75 分 位 数 与 0.25 分 位 数 (第 75 百 分 位 数 与 第 25 百 分 位 数 ) 比较 重要 ， 它 们 分 
别称 为 上 、 下 四 分 位 数 ， 并 分 别 记 为 @s = mo.75, Q1 = m0.25. 
在 R 软件 中 ， quantile() 函数 计算 观测 量 的 百 分 位 数 ， 如 
> W<- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
> quantile(w) 
0%p 25% 50% 75% 100% 
47.40 57.85 63.50 66.75 75.00 
quantile() 函数 的 一 般 使 用 格式 为 
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE， 
names = TRUE, type = 7, ...) 
其 中 x 是 由 数值 构成 的 向 量 。 probs 是 给 出 相应 的 百 分 位 数 , 缺 省 时 是 0 、3 
上 3、 、1. na.rm 是 逻辑 变量 ， 当 na.rm = TRUE 时 ,可 处 理 缺 失 数 据 ， 其 余 见 
帮助 . 
如 果 打 算 给 出 0%, 20%, 40%, 60%, 80% 和 100% 的 百 分 位 数 ， 则 选择 
> quantile(w, probs = seq(0, 1, 0.2)) 
0% 20% 40% 60% 80% 100% 
47.40 56.98 62.20 64.00 67.32 75.00 


3.1.2 分散 程度 的 度量 


表示 数据 分 散 (或 变异 ) 程度 的 特征 量 有 方差 、 标 准 差 、 极 差 、 四 分 位 极 差 、 
变异 系数 和 标准 误 等 . 

1. 方差 、 标 准 差 与 变异 系数 

方差 (variance) 是 描述 数据 取 值 分 散 性 的 一 个 度量 . 样本 方差 (sample vari- 
ance) 是 样本 相对 于 均值 的 偏差 平方 和 的 平均 ， 记 为 s*, 即 


六 二 >》 (zi — TD). (3.4) 





其 中 3 是 样本 的 均值 . 
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样本 方差 的 开 方 称 为 样本 标准 差 (standard deviation), 记 为 s, 即 




















5 一 (3.5) 
变异 系数 是 刻 划 数据 相对 分 散 性 的 一 种 度量 ， 记 为 CV， 
CV = 100 x =(%), (3.6) 
它 是 一 个 无 量 纲 的 量 ， 用 百分数 表示 . 
与 分 散 程度 有 关 的 统计 量 还 有 下 列 数字 特征 ; 
样本 校正 平方 和 
CSS = 》 (2 一列 (3.7) 
样本 未 校正 平方 和 ， 
USS= 2 (3.8) 


在 R 软件 中 , 若 x 是 由 样本 构成 的 向 量 ， 则 var (x) 计算 样本 方差 ， sd (x) 
计算 样本 标准 差 ， 即 sd(x) = Vvar(x). 例如 ， 对 于 15 名 学 生 的 体重 数据 ， 有 
> Var(VW) 
[1] 56.47257 
> sd(w) 
[1] 7.514823 
方差 函数 var() 和 标准 差 函 数 sd() 的 使 用 格式 为 
var(x, y = NULL, na.rm = FALSE, use) 
sd(x, na.rm = FALSE) 
其 中 x 是 数值 向 量 、 矩 阵 或 数据 框 ， na.rm 是 逻辑 变量 , 当 na.rm = TRUE 时 ， 
可 处 理 缺 失 数 据 ， 其 余 见 帮助 . 
与 方差 函数 var() 相关 的 函数 还 有 : ”cov() 一 求 协 方差 窍 阵 ， cor() 一 求 
相关 甜 阵 ， 这 两 个 函数 将 在 后 面 介绍 . 
对 于 变异 系数 、 校 正平 方 和 、 未 校正 平方 和 等 指标 ,需要 编写 简单 的 程序 . 
例如 ， 对 于 15 名 学 生 的 体重 数据 
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> cv <- 100*sd(w)/mean(w); cv 
[1] 12.05071 

> css <- sum((w-mean(w)) “2); css 
[1] 790.616 

> uss <- sum(w 2); uss 


[1] 59122.16 
2. 极 差 与 标准 误 
样本 极 差 ( 记 为 R) 的 计算 公式 为 
R= zn) 一 z0 = max(z) — min(z)， (3.9) 


其 中 xz 是 由 样本 构成 的 向 量 . 样本 极 差 是 描述 样本 分 散 性 的 数字 特征 . 当 数据 越 
分 散 ， 其 极 差 越 大 . 
样本 上 、 下 四 分 位 数 之 差 称 为 四 分 位 差 〈 或 半 极 差 )， 记 为 局 , 即 
Ri = Q3— 1 (3.10) 


它 也 是 度量 样本 分 散 性 的 重要 数字 特征 , 特别 对 于 具有 异常 值 的 数据 ， 它 作为 分 
散 性 具有 稳健 性 ， 因 此 它 在 稳健 性 数据 分 析 中 具有 重要 作用 . 
样本 标准 误 ( 记 为 sm) 定义 为 


a (3.11) 





对 于 样本 极 差 与 样本 标准 误 ， 可 以 简单 编程 方法 计算 . 
3.1.3 ”分布 形状 的 度量 


在 第 一 章 的 1.3.5 节 介 绍 过 总 体 的 偏 度 (skewness) 系数 和 峰 度 (kurtosis) 系 
数 ， 这 里 介绍 样本 的 偏 度 系数 和 峰 度 系数 . 


1. 偏 度 系 数 
样本 的 偏 度 系 数 ( 记 为 91) 的 计算 公式 为 


加 Nn : A 3 ns 
4 二 py We) 
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其 中 。 是 标准 差 ， 1 是 样本 3 阶 中 心 矩 , 即 1 一 二 (0 一 如 )” 


偏 度 系数 是 刻 划 数据 的 对 称 性 指标 ,关于 均值 对 称 的 数据 其 偏 度 系数 为 0， 
右 侧 更 分 散 的 数据 偏 度 系数 为 正 ， 左 侧 更 分 散 的 数据 偏 度 系数 为 负 . 


2. 峰 度 系数 
样本 的 峰 度 系数 ( 记 为 92) 的 计算 公式 为 


人 Zi 一 歼 ) 一 m0D) 

-0 Fm ) i 
/0 Re a 
~ mm maa)’ G2 


其 中 。 是 标准 差 ， /4 是 样本 4 阶 中 心 矩 , 即 1 = 二 沁 (zi 一 如 


当 数 据 的 总 体 分 布 为 正 态 分 布 时 ， 峰 度 系数 近似 为 0; 当 分 布 较 正 态 分 布 的 
尾部 更 分 散 时 ， 峰 度 系 数 为 正 ， 和 否则 为 负 ， 当 峰 度 系数 为 正 时 ， 两 侧 极端 数据 较 
多 ; 当 峰 度 系 数 为 负 时 ， 两 侧 极端 数据 较 少 . 

最 后 编写 一 个 统计 的 函数 (程序 名 ”data_outline.R), 计算 样本 的 各 种 描 
述 性 统计 量 . 

data_outline <- function(x){ 

n <- length(x) 

m <- mean(x) 

V <- var(x) 

s <- sd(x) 

me <- median(x) 

cv <- 100*s/m 

css <- sum((x-m) “2) 

uss <- sum(x”°2) 

R <- max(x)-min(x) 

R1 <- quantile(x,3/4)-quantile(x,1/4) 
sm <- s/sqrt(n) 

g1 <- n/((n-1)*(n-2))*sum( (x-m)“3)/s°3 
g2 <- (Cn*(n+1))/((n-1)*(n-2)*(n-3))*sum( (x-m)“ 4)/s°4 
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- (3*(n-1)°2)/((n-2)*(n-3))) 
data.frame(N=n, Mean=m, Var=v, std_dev=s, 
Median=me, std_mean=sm, CV=cv, CSS=css, USS=uss, 
R=R, R1=R1, Skewness=g1l, Kurtosis=g2, row.names=1) 
} 
函数 的 输入 变量 x 是 数值 型 向 量 ， 由 样本 构成 . 函数 的 返回 值 是 数据 框 ， 包 
含 以 下 指标 :| N 样本 的 个 数 ; Mean 样本 均值 ; Var 样本 方差 ; std_dev 样本 
标准 差 ， Median 样本 中 位 数 ; std_mean 样本 的 标准 误 ; CV 样本 的 变异 系数 ; 
CSS 样本 校正 平方 和 ; USS 样本 未 校正 平方 和 ; BR 样本 极 差 ; R1 样本 半 极 差 ; 
Skewness 样本 峰 度 系 数 ; Kurtosis 样本 偏 度 系数 . 
例 3.2 计算 例 3.1 中 15 位 学 生 的 体重 的 各 种 统计 量 . 
解 : 将 编 好 的 程序 调 入 内 存 ( 见 第 二 章 中 输入 及 代码 )， 输 入 数据 并 计算 得 
到 相应 的 结果 . 
> source('"data_outline.R'") 
>w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2,，58.7，63.5, 
66.6, 64.0, 57.0, 69.0, 56.9,，50.0，72.0) 


> data_outline(w) 


N Mean Var std_dev Median std_mean CV 
1 15 62.36 56.47257 7.514823 63.5 1.940319 12.05071 
CSS USS R RI1 Skewness Kurtosis 


1 790.616 59122.16 27.6 8.9 -0.4299561 0.09653947 


3.2 ”数据 的 分 布 


数据 的 数字 特征 刻 划 了 数据 的 主要 特征 , 而 要 对 数据 的 总 体 情 况 作 全 面 的 描 
述 ， 就 要 研究 数据 的 分 布 . 对 数据 分 布 的 主要 描述 方法 有 直方 图 、 荃 叶 图 和 数据 
的 理论 分 布 即 总 体 分 布 . 数据 分 析 的 一 个 重要 问题 是 要 研究 数据 是 否 来 自 正 态 总 
体 ， 这 是 分 布 的 正 态 性 检验 的 问题 . 
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3.2.1 分布 函数 
在 第 一 章 给 出 了 分 布 函数 (x) 的 定义 (定义 1.5) 、 分 布 律 (定义 1.7), 即 
P{X = zi} = px, k= 1,2,..., 


和 概率 密度 函数 f(x) 的 定义 (定义 1.8), 以 及 概率 密度 函数 f(z) 与 分 布 函 数 
(zx) 的 关系 


I f(t)dt, ~oo<7z<o0. 


并 给 出 了 一 些 典型 的 分 布 ， 如 正 态 分 布 、 Poisson 分 布 等 . 
在 R 软件 中 ， 提 供 了 计算 这 些 典型 分 布 的 分 布 函数 、 分 布 律 或 概率 密度 函 
数 ， 以 及 分 布 函数 的 反 函 数 的 各 种 函数 ， 
例如 ,考虑 正 态 分 布 ， 设 / 是 均值 ，o? 是 方差 .对 于 任意 的 变量 x, 其 分 布 
函数 为 
F(x) 三 2 下 op- 入 t= pnomgs mu, sigma), 


270 20 








其 中 函数 pnorm 是 R 软件 中 计算 分 布 函 数 ( 正 态 分 布 ) 的 函数 ， mu 是 均值 /， 
sigma 是 标准 差 o. 相应 的 概率 密度 函数 为 








] _ ,2 
f(z) = op 人 -后 上 aeme mu, sigma), 


其 中 函数 dnorm 是 R 软件 中 计算 概率 密度 函数 ( 正 态 分 布 ) 的 函数 . 
计算 标准 正 态 分 布 的 上 a/2 (a = 0.05) 分 位 点 ， 其 计算 公式 为 


2a/2 = qnorm(1-0.025, 0,1) = 1.959964. 


其 中 函数 qnorm 是 R 软件 中 计算 下 分 位 点 的 函数 . 
产生 100 个 标准 正 态 态 分 布 的 随机 数 
r <- rnorm(100, 0, 1) 
其 中 函数 rnorm 是 R 软件 中 生成 ( 正 态 分 布 ) 随机 数 的 函数 ， 参 数 0，1 可 以 缺 
省 . 
关于 正 态 分 布 函数 dnorm() 、pnorm() 、qnorm() 和 rnorm() 的 使 用 方法 


是 
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dnorm(x, mean=0, sd=1, log = FALSE) 
pnorm(d, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) 
qnorm(p, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) 
rnorm(n, mean=0, sd=1) 
其 中 x,q 是 由 数值 型 变量 构成 的 向 量 . p 是 由 概率 构成 的 向量 n 是 产生 随 
机 数 的 个 数 . mean 是 要 计算 的 正 态 分 布 的 均值 ， 缺 省 值 为 0. sd 是 要 计算 的 正 
态 分 布 的 标准 差 ， 缺 省 值 为 1. 函数 dnorm() 的 返回 值 是 正 态 分 布 的 概率 密度 函 
数 . 函数 pnorm() 的 返回 值 是 正 态 分 布 的 分 布 函 数 . 函数 qnorm() 的 返回 值 是 
给 定 概率 p 后 的 下 分 位 点 .函数 rnorm() 的 返回 值 是 由 n 个 正 态 分 布 随机 数 构 
成 的 向 量 . 
log，log.Pp 是 逻辑 变量 ， 当 它 为 真 (TRUE) 时 ， 洱 数 的 返回 值 不 再 是 正 态 分 
布 , 而 是 对 数 正 态 分 布 ，lower .tail 是 逻辑 变量 , 当 它 为 真 (TRUE, 缺 省 值 ) 时 ， 
分 布 函数 的 计算 公式 为 
A 
当 lower.tail = FALSE 时 ， 分 布 函 数 的 计算 公式 为 
F(z)= P{X > 2 


再 看 一 个 离散 随机 变量 计算 函数 的 例子 ， 如 Poisson 分 布 . Poisson 分 布 的 
使 用 格式 为 
dpois(x, lambda, log = FALSE) 
ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) 
qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) 
rpois(n, lambda) 
其 中 lambda 是 Poisson 分 布 的 参数 入. 其 余 参 数 的 意义 与 上 面 介 绍 的 函数 ( 正 态 
分 布 ) 中 参数 的 意义 相同 . 
注意 ， 由 于 Poisson 分 布 是 离散 分 布 ， 当 x 是 整数 上 时， 其 意义 为 
Me 
Kk! 
当 x 不 是 整数 时 ， dpois (x，lambda)=0. 对 于 函数 ppois(), 无 论 x 是 否 为 整 


P{X =k} = 





= dpois(k, lambda), 


Ae™* . 
F(z) = x = Ppois(x, lambda). 


138 第 三 章 数据 描述 性 分 析 


给 定 概率 p, qpois(p，lambda) 的 返回 值 是 P{X = kk} >p 的 最 小 的 整数 上 
0 表 3.1 列 出 了 各 种 常用 的 分 布 函数 ， 概 率 
函数 或 分 布 律 ， 以 及 R 中 的 名 称 和 调用 函数 用 到 的 参数 ， 


表 3.1: 分 布 函数 或 分 布 律 
分 布 R 中 的 名 称 附加 参数 


beta shapel, shape2, ncp 
binomial size, prob 
Cauchy location, scale 
chi-squared df, ncp 
exponential rate 

F f df1, df2, ncp 
gamma gamma shape, scale 
geometric geom prob 
hypergeometric hyper m,n, k 
log-normal lInorm meanlog, sdlog 
logistic logis location, scale 
negative binomial nbinom size, prob 
normal norm mean, sd 
Poisson pois lambda 
Student’s t t df, ncp 
uniform unif min, max 
Weibull weibull shape, scale 
Wilcoxon wilcox m,n 








在 表 3.1 所 列 的 分 布 中 ， 加 上 不 同 的 前 级 表示 不 同 的 意 
。 d 一 概率 密度 函数 f(zx), 或 分 布 律 px; 
。 p 一 分布 函数 F(x); 
。 qd 一 分布 函数 的 反 函 数 『(p), 即 给 定 概率 p 后 ， 求 其 下 分 位 点 ; 
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e。 r 一 仿真 (产生 相同 分 布 的 随机 数 ). 
3.2.2 ”直方 图 、 经 验 分 布 图 与 QQ 图 


1. 直方 图 


对 于 数据 分 布 ， 常 用 直方 图 (histogram) 进行 描述 ， 将 数据 取 值 的 范围 分 成 
知 干 区 间 (一 般 是 等 间隔 的 ), 在 等 间隔 的 情况 下 ， 每 个 区 间 长 度 称 为 组 距 . 考察 
数据 落 入 每 一 区 间 的 频数 与 频率 ,在 每 个 区 间 上 画 一 个 矩形 ， 它 的 宽度 是 组 距 ， 
已 的 高 度 可 以 是 频数 、 频 率 或 频率 / 组 距 ， 在 高 度 是 频率 / 组 距 的 情况 下 ,每 一 
矩形 的 面积 恰 是 数据 落 入 区 间 的 频率 ,这 种 直方 图 可 以 佑 计 总 体 的 概率 密度 . 组 
距 对 直方 图 的 形态 有 很 大 的 影响 ， 组 距 太 小 ， 每 组 的 频数 较 少 ， 由 于 随机 性 的 影 
响 ， 邻 近 区 间 上 的 频数 可 能 很 大 ， 组 距 太 大 ， 直 方 图 所 反映 的 形态 就 不 灵敏. 

在 了 软件 中 ， 用 函数 hist() 画 出 样本 的 直方 图 ， 其 格式 为 


hist (x) 





或 
hist(x, breaks = "Sturges", freq = NULL, probability = !freq, 
include.lowest = TRUE, right = TRUE， 
density = NULL, angle = 45, col = NULL, border = NULL, 
main = paste("Histogram of" , xname), 
xlim = range(breaks), ylim = NULL, 
xlab = xname, ylab, 
axes = TRUE, plot = TRUE, labels = FALSE, 
nclass = NULL, ...) 
其 中 x 是 由 样本 构成 的 向 量 . breaks 规定 直方 图 的 组 距 ， 由 以 下 几 种 形式 给 
出 : 
。 向 量 ,， 给 出 直方 图 的 起 点 、 终 点 与 组 距 . 
。 数 ， 定 义 直方 图 的 组 距 . 
。 字符 串 ， ( 见 缺 省 状态 ). 
。 孔 数 ， 计 算 组 距 的 宽度 . 
freq 是 逻辑 变量 : 
。 TRUE 绘 出 频率 直方 图 ; 
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e counts 绘 出 频率 直方 图 ; 
。 FALSE 绘 出 密度 直方 图 
probability 是 逻辑 变量 与 freq 相反 ， 是 与 S-PLUS 相 兼 容 的 参数 ， 
。TRUE 绘 出 密度 直方 图 ; 
。 FALSE 绘 出 频率 直方 图 
col 表示 直方 图 中 填充 的 颜色 . plot 是 逻辑 变量 ; 
。TRUE 表示 给 出 直方 图 ; 
。 FALSE 表示 列 出 绘 出 直方 图 的 各 种 结果 ( 并 不 绘图 ). 
其 它 参 数 见 帮助 文件 . 


2. 核 密 度 估计 函数 


与 直方 图 相配 套 的 是 核 密度 估计 (kernal density estimate) 函数 density()， 
其 目的 是 用 已 知 样 本 ， 佑 计 其 密度 . 它 的 使 用 方法 是 : 
density(x, bw = "nrd0", adjust = 1， 
kernel = c("gaussian", "epanechnikov", "rectangular'", 
"triangular", "biweight", "cosine", "optcosine"), 
window = kernel, width, 
give.Rkern = FALSE, 
n = 512, from, to, cut = 3, na.rm = FALSE) 
其 中 x 是 由 样本 构成 的 向 量 . bw 是 人 带宽， 可 选择 . 当 bw 为 省 略 值 时 ， R 软件 
会 画 出 光滑 的 曲线 ,其它 参 数 见 帮助 文件 . 
例 3.3 绘 出 例 3.1 中 15 位 学 生 的 体重 的 直方 图 和 核 密度 估计 图 ， 并 与 正太 分布 
的 概率 密度 函数 作对 照 ， 
解 : 写 出 R 程序 (程序 名 : exam0303.R ) 
W<- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
hist(w, freq = FALSE) 
lines(density(w), col = "blue'") 
x <- 44:76 


lines(x, dnorm(x, mean(w), sd(w)), col = "red') 


执行 后 绘 出 直方 图 和 密度 估计 曲线 和 正 态 分 布 的 概率 密度 曲线 ， 如 图 3.1 所 示 . 
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图 3.1: 学 生体 重 的 直方 图 、 窗 度 佑 计 曲 线 与 正 态 分 布 密度 曲线 





注意 到 ， 密 度 估 计 曲 线 与 正 态 分 布 的 概率 密度 曲线 还 是 有 一 定 的 差别 的 . 
结合 直方 图 和 和 密度 估计 曲线 来 进一步 分 析 例 3.2 中 统计 量 的 意义 . 如 偏 度 小 
于 0, 直方 图 偏 右 等 . 
3. 经 验 分 布 
直方 图 的 制作 适合 于 总 体 为 连续 型 分 布 的 场合 . 对 于 一 般 的 总 体 分 布 ， 若 要 
估计 它 的 总 体 分 布 函 数 F(z), 可 用 经 验 分 布 函数 (empirical distribution function) 
作 估计 .在 第 一 章 的 1.5.3 节 给 出 了 经 验 分 布 的 定义 ( 见 式 (1.87)), 在 R 中 , 用 
函数 ecdf () 绘 出 样本 的 经 验 分 布 函数 ， 其 用 法 是 : 
ecdf (x) 
plot(x, ..., ylab="Fn(x)", verticals = FALSE， 





col.011ine = "gray70") 
其 中 ,在 函数 ecaf () 中 的 x 是 由 观察 值得 到 的 数值 型 癌 量 , 而 在 函数 plot () 中 的 
x 是 由 函数 ecdaf () 生成 的 向 量 .， verticals 是 逻辑 变量 , 当 verticals = TRUE 
表示 画 坚 线 ;否则 (FALSE, 缺 省 值 ) 不 画 坚 线 . 
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例 3.4 绘 出 例 3.1 中 15 位 学 生 的 体重 的 经 验 分 布 图 和 相应 的 正 态 分 布 图 . 

解 : 写 出 R 程序 ( 程序 名 :exam0304.R ) 

plot (ecdf (w) ,verticals = TRUE, do.p = FALSE) 

x <- 44:78 

lines(x, pnorm(x, mean(w), sd(w))) 
其 中 do.p 是 逻辑 变量 ， 当 do.p = FALSE 表示 不 画 点 处 的 记号 ; 否则 (TRUE, 缺 
省 值 ) 画 记 号 . 

执行 后 绘 出 经 验 分 布 图 和 正 态 分 布 曲线 ， 如 图 3.2 所 示 . 
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图 3.2: 学 生体 重 的 经 验 分 布 图 和 正 态 分 布 曲线 


4. QQ 

不 论 是 直方 图 还 经 验 分 布 图 , 要 从 比较 上 鉴别 样本 是 否 近 似 于 某 种 类 型 的 分 
布 是 困难 的 ，QQ 图 可 以 帮助 我 们 鉴别 样本 的 分 布 是 否 近似 于 某 种 类 型 的 分 布 . 

现 假定 总 体 为 正 态 分 布 N(1,o?), 对 于 样本 zi za …,zn， 其 顺序 统计 量 是 
20)20) 2 设 B(z) 是 标准 正 态 分 布 N(0,1) 的 分 布 函数 ， 理 !(z) 是 反 函 





3.2 数据 的 分 布 143 


数 ， 对 应 正 态 分 布 的 QQ 图 是 由 以 下 的 点 


一 0.375 
(™ [| 0) ey (3.14) 


构成 的 散 点 图 若 样 本 数据 近似 于 正 态 分 布 ， 在 QQ 图 上 这 些 点 近似 地 在 直线 





2 一 OZ 十 内 


附近 ， 此 直线 的 斜率 是 标准 差 ", 截 距 是 均值 人/ 所 以 利用 正 态 QQ 图 可 以 作 直 
观 的 正 态 性 检验 , 若 正 态 QQ 图 上 的 点 近似 地 在 一 条 直线 附近 ， 可 以 认为 样本 数 
据 来 自 正 态 分 布 总 体 . 
在 R 软件 中 ,函数 qqnorm() 和 qqline() 提供 了 画 正 态 QQ 图 和 相应 直线 
的 方法 .其 使 用 方法 是 : 
qqnorm(y, ...) 
qqnorm(y, ylim, main = "Normal Q-Q Plot", 
xlab = "Theoretical Quantiles", 
ylab = "Sample Quantiles", plot.it = TRUE, 
datax = FALSE, ...) 
qqline(y, datax = FALSE, ...) 
qqplot (x, y, plot.it = TRUE, xlab = deparse(substitute(x)), 
ylab = deparse(substitute(y)), ...) 
其 中 x 是 第 一 列 样本 . y 是 第 二 列 样本 或 只 有 此 列 样本 . xlab, ylab, main 
是 图 标 . 其 它 参 数 见 帮 助 文件 . 
例 3.5 绘 出 例 3.1 中 15 位 学 生 的 体重 的 正 态 QQ 图 并 从 直观 上 鉴别 样本 数据 
是 否 来 自 正 态 分 布 总 体 ， 
解 : 写 出 R 程序 (程序 名 : exam0305.R ) 
Ww <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2,58.7，63.5, 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
qqnorm(w); qqline(w) 
执行 后 绘 出 正 态 QQ 图 ， 如 图 3.3 所 示 . 
从 正 态 QQ 图 (图 3.3 ) 来 看 ,样本 的 数据 基本 上 可 以 看 成 来 自 正 态 总 体 . 
对 于 对 数 正 态 、 指 数 等 分 布 也 可 以 作 相 应 的 QQ 图 , 用 以 鉴别 样本 数据 是 否 
来 自 某 一 类 型 的 总 体 分 布 . 
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Normal Q-Q Plot 





Sample Quantiles 














Theoretical Quantiles 


图 3.3: 学 生体 重 的 正 态 QQ 图 
3.2.3 ” 茎 叶 图 、 箱 线 图 及 五 数 总 括 


1. 茎 叶 图 


与 直方 图 比较 ， 茎 叶 图 更 能 细致 地 看 出 数据 分 布 的 结构 . 下 面 用 具体 的 例子 
来 说 明 茎 叶 图 的 意义 . 
例 3.6 某 班 有 31 名 学 生 ， 某 门 课 的 考试 成 绩 如 下 : 
25 45 50 54 55 61 64 68 72 75 75 
78 79 81 83 84 84 84 85 86 86 86 
87 89 89 89 90 91 91 92 100 
做 出 其 茎 叶 图 . 
解 : 在 R 软件 中 , 用 stem() 函数 作 茎 叶 图 ， 其 命令 (程序 名 exam0306.R) 
如 下 
> x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, 
78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86, 
87, 89, 89, 89, 90, 91, 91, 92, 100) 
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> stem(x) 
The decimal point is 1 digit(s) to the right of the | 
2 | 5 
3 | 
4 15 
5 | 045 
6 | 148 
7 | 25589 
8 | 1344456667999 
9 | 0112 
10 | 0 


下 面 对 荃 叶 图 给 出 相应 的 解释 . 
第 一 个 数 25 的 十 位 为 2, 个 位 为 5. 以 个 位 为 单位 ， 将 25 用 | 号 分 开 : 
25 一 2 15 
每 一 个 数 都 可 以 这 样 处 理 ,. 因此 ， 蕉 呈 图 将 十 位 数 2,3,4,5,6,7,8,9,10 按 纵 列 从 上 
到 下 排列 ， 在 纵 列 右 侧 从 上 到 下 画 一 坚 线 ， 再 在 坚 线 右 侧 写 上 原始 数据 的 相应 的 
个 们 数 ， 例 如， 在 十 位 数 5 的 坚 线 右 侧 依 次 应 是 0,4,5, 即 
5 | 045 

它们 分 别 对 应 着 50, 54, 55 这 三 个 数据 .又 如 在 十 位 数 3 的 坚 线 的 右 侧 ， 因 为 从 
原始 数据 看 ， 没 有 对 应 的 数据 可 填 ， 可 以 空 着 . 

在 蕉 叶 图 中 ， 纵 轴 为 测定 数据 ， 横 轴 为 数据 频数 ,数据 的 十 位 数 部 分 表示 
“ 茎 ， 作 为 纵 轴 的 刻度 ;个 位 数 部 分 作为 “ 叶 “， 显示 频数 的 个 数 ， 作 用 与 直方 图 
的 直方 类 似 . 

stem() 函数 的 使 用 方法 是 : 

stem(x, scale = 1, width = 80, atom = 1e-08) 
其 中 x 是 数据 向 量 . ”scale 控制 绘 出 茎 叶 图 的 长 度 ， ”width 绘图 的 宽度 . 
atom 是 容 差 . 

如 果 选 择 scale = 2, 即将 10 个 个 位 数 分 成 两 段 ，0 ~ 4 为 一 段 ，5 ~ 9 为 

另 一 段 ， 看 下 面 的 计算 结果 


> stem(x, scale = 2) 
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The decimal point is 1 digit(s) to the right of the | 
2 | 5 
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如 果 选 择 scale = 1/2, 即将 10 个 个 位 数 分 成 1/2 段 ， 即 20 个 数 为 一 段 ， 如 


> stem(x, scale = .5) 


The decimal point is 1 digit(s) to the right of the | 


2 | 5 
4 | 5045 
6 | 14825589 
8 | 13444566679990112 
10 | 0 
例 3.7 绘 出 例 3.1 中 15 位 学 生 的 体重 的 茶叶 国 . 
解 : 
> stem(w) 


The decimal point is 1 digit(s) to the right of the | 
4 17 
5 | 0779 
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6 | 22444779 

A 
注意 到 :为 了 使 数据 分 析 简 化 ， 将 原始 数据 小 数 点 后 数值 四 舍 五 入 . 
2. 箱 线 图 


茎 叶 图 是 探索 性 数据 分 析 所 采用 的 重要 方法 . 而 箱 线 图 确 能 直观 简洁 地 展现 
数据 分 布 的 主要 特征 .在 R 软件 中 ， 用 boxplot() 函数 作 箱 线 图 . 
例 3.8 绘 出 例 3.6 学 生 考 试 成 绩 的 箱 线 图 . 
解 : 输入 命令 
> boxplot (x) 
得 到 箱 线 图 ， 如 图 3.4 所 示 . 





100 
| 




















oO 





图 3.4: 学 生成 绩 的 箱 线 图 


在 箱 线 图 中 ， 上 〈@s) 下 (Qi) 四 分 位 数 分 别 确定 出 中 间 箱 体 的 项 部 主 底部 . 
箱 体 中 间 的 粗 线 是 中 位 数 (me。) 所 在 的 位 置 . 由 箱 体 向 上 下 伸 出 的 垂直 部 分 称 为 
“触须 ”, 表示 数据 的 散布 范围 ， 最 远 点 为 1.5 倍 四 分 位 数 间距 .超出 此 范围 的 点 
称 为 异常 值 点 ， 异 常 值 点 用 “o” 号 表示 . 
boxplot() 函数 的 使 用 方法 有 三 种 形式 ， 第 一 种 格式 为 
boxplot (x, ...) 
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其 中 x 是 由 数据 构成 的 数值 型 问 量 ， 或 者 是 列表 ， 或 者 是 数据 框 . 上 面 例子 的 使 
用 方法 就 是 这 种 形式 .第 二 种 形式 为 
boxplot (formula, data = NULL, ..., subset, na.action = NULL) 

其 中 formula 是 公式 , 如 了 ”grp, 这 里 y 是 由 数据 构成 的 数值 型 向 量 ， grp 是 
数据 的 分 组 ， 通 常 是 因子 . data 是 数据 结构 ， 第 三 种 形式 为 
boxplot(x, ..., range = 1.5, width = NULL, varwidth = FALSE, 

notch = FALSE, outline = TRUE, names, plot = TRUE， 

border = par("fg"), col = NULL, log = "", 








pars = list(boxwex = 0.8, staplewex = 0.5, outwex = 0.5), 


horizontal = FALSE, add = FALSE, at = NULL) 


其 中 x 的 意义 与 第 一 种 情况 相同 ，range 是 “触须 ”的 范围 ( 缺 省 值 为 1.5). notch 
是 逻辑 变量 ， 当 notch = TRUE( 缺 省 值 为 FALSE) 时 ， 画 出 的 箱 线 图 带 有 切口 . 
outline 是 逻辑 变量 ， 当 outline = FALSE( 缺 省 值 为 TRUE) 时 ， 不 标明 异常 值 
点 col 是 颜色 变量 ， 赋 给 不 同 的 值 ， 将 绘 出 不 同 颜色 的 箱 线 图 ， horizontal 
是 逻辑 变量 ， 当 horizontal = TRUE( 缺 省 值 为 FALSE) 时 , 将 把 箱 线 图 绘 成 水 平 
状 . add 是 逻辑 变量 ,， 当 add = TRUE 时 , 在原 图 上 画图 ; 否则 (FALSE, 缺 省 值 ) 
替换 上 一 张 图 ， 其 余 参 数 的 意义 在 线 帮助 文件 . 
可 以 用 boxplot() 函数 作 两 样本 的 均值 检验 , 考查 两 样本 的 均值 是 否 相同 . 
例 3.9 已 知 由 两 种 方法 得 到 如 下 数据 : 
Method A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
Method B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
问 两 组 数据 的 均值 是 否 相 同 ? 
解 : 输入 数据 ,调用 boxplot() 函数 (程序 名 ， exan0309.B) 画 出 两 组 数据 
的 箱 线 图 ， 
A <- c(79.98，80.04，80.02，80.04，80.03，80.03，80.04， 
79.97，80.05，80.03，80.02，80.00，80.02) 
B <- c(80.02，79.94，79.98，79.97，79.97，80.03，79.95， 
79.97) 


boxplot (A, B, notch=T, names=c(’A’, ’B’), col=c(2,3)) 


~- 
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图 3.5: 两 组 数据 的 箱 线 图 


得 到 箱 线 图 ， 如 图 3.5 所 示 . 

从 图 形 可 以 看 出 ， 两 组 数据 的 均值 是 不 相同 的 ， 第 一 组 值 高 于 第 二 组 . 我 们 
将 第 五 章 将 给 出 两 样本 均值 检验 的 统计 方法 . 

注意 到 : 由 于 使 用 了 参数 notch = T, 画 出 的 箱 线 图 带 有 切口 . col = c(2,3)， 
所 以 关于 A 的 箱 线 图 是 红色 (2 表示 红色 ), 关于 B 的 箱 线 图 是 绿色 (3 表示 红 
绿 ), 也 可 以 将 参数 写成 col = c(’red’，’green’). 

在 R 软件 中 ， InsectSprays 是 R 提供 的 数据 框 ， 它 是 由 两 列 数据 构成 ， 
一 列 叫 count， 由 数据 构成 ， 另 一 叫 spray， 由 因子 构成 , 共有 A, B, C, D, Eb, 
F 六 个 水 平 . 现 画 出 数据 count 在 这 六 个 水 平 下 的 箱 线 图 ， 其 命令 (程序 名 : 
figure0306.R) 如 下 : 


boxplot (count spray, data = InsectSprays, 


col = "lightgray") 


boxplot (count spray, data = InsectSprays, 


notch = TRUE, col = 2:7, add = TRUE) 
第 一 个 命令 是 画 出 矩形 的 箱 线 图 , 而 且 图 中 的 颜色 是 青 灰 色 (col="lightgray"). 
二 个 命令 表示 画 出 的 箱 线 图 带 有 切口 (notch = TRUE), 而 且 每 一 个 箱 线 图 用 一 
种 颜色 (col = 2:7) 画 出 ,并 将 这 次 画 的 图 和合 加 到 上 一 张 图 上 (add = TRUE), 其 
图 形 如 图 3.6 所 示 . 
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图 3.6: 不 同 参数 下 箱 线 图 的 倒 加 


由 上 述 例子 可 以 看 出 ， 各 种 画 箱 线 图 的 绘图 方法 可 以 混合 使 用 . 
3. 五 数 总 括 
在 探索 性 数据 分 析 中 ， 认 为 最 有 代表 性 的 、 能 反映 数据 重要 特征 的 五 个 数 ， 
中 位 数 me, 下 四 分 位 数 Q1, 上 四 分 位 数 @a, 最 小 值 min 和 最 大 值 max. 这 五 个 
数 称 为 样本 数据 的 五 数 总 括 . 
在 R 软件 中 ， 函 数 fivenum() 计算 样本 的 五 数 总 括 ， 使 用 格式 为 
fivenum(x, na.rm = TRUE) 
其 中 x 是 样本 数据 ， na.rm 是 逻辑 变量 ， 当 na.rm = TRUE( 缺 省 值 ) 时 ， 在 计算 
五 数 总 括 之 前 ， 所 有 的 NA 和 NAN 数据 将 被 去 掉 . 
例 3.10 求 例 3.6 学 生 考 试 成 绩 的 五 数 总 括 . 
解 : (程序 名 : exam0310 .BR) 
> x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, 
78, 79, 81, 83, 84, 84, 84, 85, 86，,86,，86, 
87，89，89，89，90，91，91，92，100) 
> fivenum(x) 


[1] 25 70 84 88 100 
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3.2.4 ” 正 态 性 检验 与 分 布 拟 合 检验 


上 面 介绍 的 荃 叶 图 、 箱 线 图 等 对 随机 性 、 确 定性 的 数据 都 有 用 ， 其 特点 是 图 
像 生 动 直 观 . 在 直方 图 、 经 验 分 布 函数 介绍 中 ， 曾 提 到 在 总 体 存在 某 种 类 型 的 分 
布 时 ， 配 一 条 合适 的 总 体 概率 密度 曲线 或 总 体 分 布 函 数 曲 线 . 然而 ， 所 配 曲 线 是 
否 合适 ， 是 需要 进行 统计 检验 的 有 关 的 统计 检验 方法 将 在 第 五 章 中 介绍 ， 这 里 
只 简单 介绍 两 种 检验 方法 ， 一 种 方法 是 关于 正 态 分 布 的 检验 ， 另 一 种 方法 是 关于 

1. 正 态 性 W 检验 方法 

利用 Shapiro-Wilk ( 夏 皮 罗 - 威 尔 克 ) W 统计 量 作 正 态 性 检验 ， 因 此 称 这 种 
检验 方法 为 正 态 W 检验 方法 . 

在 R 软件 中 ,函数 shapiro.test() 提供 W 统计 量 和 相应 的 p 值 , 当 p 值 
小 于 某 个 显著 性 水 平 a( 比 如 0.05), 则 认为 样本 为 不 是 来 自 正 态 分 布 的 总 体 ;和 否 
则 承认 样本 来 自 正 态 分 布 的 总 体 . 

函数 shapiro.test() 的 使 用 格式 为 

shapiro.test (x) 
其 中 x 是 由 数据 构成 的 向 量 ， 并 且 疝 量 的 长 度 在 3 至 5000 之 间 . 

对 于 例 3.1 中 15 位 学 生 的 体重 数据 ， 

> Ww <- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 

66.6，64.0，57.0，69.0，56.9，50.0，72.0) 


> shapiro.test(w) 











Shapiro-Wilk normality test 
data: Vw 


W = 0.9686, p-value = 0.8371 


2 值 为 0.8371 > 0.05, 因此 ， 认 为 来 自 正 态 分 布 的 总 体 ， 与 QQ 图 得 到 的 结 
论 相 同 ， 又 如 
> shapiro.test(runif(100, min = 2, max = 4)) 
Shapiro-Wilk normality test 
data: runif(100, min = 2, max = 4) 


W = 0.9493, p-value = 0.0007515 
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2 值 为 0.0007515 < 0.05, 认为 样本 不 是 来 自 正 态 分 布 的 总 体 ， 当然 ， 这 是 来 自 均 
匀 分 布 的 随机 数 . 


2. 经 验 分 布 的 Kolmogorov-Smirnov 检验 方法 


经 验 分 布 函数 (x) 是 总 体 分 布 函数 P(x) 的 估计 . 经 验 分 布 拟 合 检验 的 方法 

是 检验 经 验 分 布 (zx) 与 假设 的 总 体 分 布 函数 Fo(z) 之 间 的 差异 ， Kolmogorov- 

Smirnov( 科 尔 真 戈 罗 夫 - 斯 米尔 诺 夫 ) 统计 量 是 计算 所 ,(zx) 与 Fo(z) 的 距离 D， 
即 

D= sup |F(z)— Fo(7z)|. (3.15) 


一 DO<Z<<co 


在 R 软件 中 ， 也 数 ks.test() 给 出 了 Kolmogorov-Smirnov 检验 方法 ， 其 
使 用 方法 是 : 
ks.test(x, y, ..., 
alternative = c('"two.sided", "less", "greater'"), 
exact = NULL) 
其 中 x 是 待 检测 的 样本 构成 的 向 量 ， y 是 原 假设 的 数据 向 量 或 是 描述 原 假设 的 
字符 串 . 
例如 ， 
> x<-rt(100,5) 
> ks.test(x, "pf",2,5) 
One-sample Kolmogorov-Smirnov test 
data: Xx 
D = 0.5596, p-value < 2.2e-16 
alternative hypothesis: two.sided 
因为 x 是 来 自 ts 的 随机 数 ， 对 x 作 忆 ,s 检验 ( 即 认为 是 来 自 总 体 是 自由 度 
为 (2,5) 的 下 分 布 ) 其 结果 是 拒绝 的 ， 即 不 认为 x 服从 Fs 的 分 布 . 
有 关 数 据 分 布 的 检验 ， 将 在 第 五 章 有 详细 的 介绍 . 





3.3 有 软件 中 的 绘图 命令 


在 前 面 介绍 的 数据 描述 性 分 析 中 ,数据 作 图 是 数据 分 析 的 重要 方法 之 一 ， 
此 ,利用 绘图 的 方法 研究 已 知 数据 ， 是 一 种 直观 、 有 效 的 方法 . 这 里 将 介绍 R 软 
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件 中 ， 一 些 数据 作 图 的 基本 方法 . 

在 作 图 函数 中 ， 有 二 类 作 图 函数 ， 一 类 是 高 水 平 作 图 函数 ， 另 一 类 是 低 水 平 
作 图 函数 .所 谓 高 水 平 作 图 函数 ， 是 与 低 水 平 的 作 图 阴 数 相对 应 的 ， 即 所 有 的 绘 
图 函数 均 可 产生 图 形 ， 可 以 有 坐标 轴 ， 以 及 图 和 坐标 轴 的 说 明文 字 等 , 所 谓 低 水 
平 作 图 函数 是 自身 无 法 生成 图 形 , 只 能 在 高 水 平 作 图 函数 产生 的 图 形 的 基础 上 ， 
增加 新 的 图 形 . 








3.3.1 ”高 水 平 绘图 函数 


高 水 平 作 图 函数 有 : plot() 、 pairs() 、 coplot() 、 qqnorm() 、 
qqline() 、 hist() 和 contour() 等 . 

1. plot() 函数 

函数 plot () 可 绘 出 数据 的 散 点 图 、 曲 线 图 等 plot() 函数 有 以 下 四 种 使 
用 方法 . 
(1) plot (x, y) 
其 中 x 和 y 是 向 量 ， 生 成 y 关于 x 的 散 点 图 . 例如 ， 第 二 章 中 的 例 2.2 就 是 这 种 
使 用 方法 . 
(2) plot (x) 
其 中 x 是 一 时 间 序 列 ， 生 成 时 间 序 列 图 形 . 如 果 x 是 向 量 , 则 产生 x 关于 下 标的 
散 点 图 . 如果 x 是 复 向 量 ， 则 绘 出 复数 的 实 部 与 虚 部 的 散 点 图 .第 二 章 的 2.2.6 
节 介绍 了 复数 绘图 的 情况 . 
(3) plot (f) 

plot (f , y) 

其 中 f 是 因子 ，y 是 数值 向 量 . 第 一 种 格式 生成 £ 的 直方 图 ; 第 二 种 格式 生成 
y 关于 f 水 平 的 箱 线 图 . 
例 3.11 利用 四 种 不 同 配方 的 材料 4 、A。、 A3 、44 生产 出 来 的 元 件 ， 测 得 
其 使 用 寿命 如 表 3.2 所 示 .， 绘 出 四 种 不 同 配方 材料 寿命 的 箱 线 图 ， 并 四 种 不 同 
配方 下 元 件 的 使 用 寿命 有 无 显著 的 差异 ? 

解 : 使 用 因子 格式 输入 数据 ， 并 绘 出 相应 的 箱 线 图 (程序 名 : ”exam0311.R). 

y<-c(1600，1610，1650，1680，1700，1700，1780，1500，1640， 

1400，1700，1750，1640，1550，1600，1620，1640，1600， 
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材料 
4 
4 
43 
4 


1600 1610 1650 1680 1700 1700 1780 

1500 1640 1400 1700 1750 

1640 1550 1600 1620 1640 1600 1740 1800 
1510 1520 1530 1570 1640 1600 





1740，1800，1510，1520，1530，1570，1640，1600) 
f<-factor(c(rep(1,7),rep(2,5), rep(3,8), rep(4,6))) 
plot (f,y) 
运行 后 得 到 相应 寿命 的 箱 线 图 ， 如 图 3.7 所 示 . ”从 图 中 可 以 看 出 四 种 不 同 配 方 
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图 3.7: 四 种 不 同 配方 材料 寿命 的 箱 线 图 


材料 寿命 没有 明显 变化 . 
(4) plot (df) 
plot(~ expr) 
plot(y ~ expr) 
其 中 df 是 数据 框 ，y 是 任意 一 个 对 象 ，expr 是 对 象 名 称 的 表达 式 如 (atb+c). 
例如 输入 学 生 的 年 龄 、 身 高 和 体重 构成 数据 框 (文件 名 :， student _data.B) 
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df<-data.frame( 
Age=c(13, 13, 14, 12, 12, 15, 11, 15, 14, 14, 14, 
15, 12, 13, 12, 16, 12, 11, 15 ) ， 
Height=c(56.5, 65.3, 64.3, 56.3, 59.8, 66.5，51.3, 
62.5，62.8，69.0，63.5，67.0，57.3，62.5， 
59.0，72.0，64.8，57.5，66.5) ， 
Weight=c( 84.0, 98.0， 90.0， 77.0， 84.5，112.0， 
50.5，112.5，102.5，112.5，102.5，133.0， 
83.0， 84.0， 99.5，150.0，128.0， 85.0， 
112.0) ) 
plot (df) 
attach (df) 
plot(“AgetHeight) 
plot (Weight“”Aget+Height) 


plot (df) 绘 出 的 图 形 如 图 3.8 所 示 . 
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图 3.8: 年 龄 、 身 高 和 体重 三 项 指标 构成 的 散布 图 
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plot(“AgetHeight) 绘 出 身高 与 年 龄 的 散 点 图 . plot (Weight~AgetHeight) 
绘 出 两 张 散 点 图 ， 第 一 张 是 体重 与 年 龄 ， 第 二 张 是 体重 与 身高 
plot 还 可 以 作 回归 诊断 图 等 ， 有些 较 深入 的 知识 ， 将 随 着 后 面 统计 知识 也 
深入 再 介绍 . 
2. 显示 多 变量 数据 
R 软件 为 显示 多 变量 数据 提供 了 两 个 非常 有 用 的 函数 .一 个 是 pairs() 函 
数 ， 当 X 是 矩阵 或 数据 框 时 
> pairs(X) 

绘 出 关于 和 矩阵 各 列 的 散布 图 ， 例 如， 以 学 生 的 数据 框 为 例 ， 
> pairs(df) 

绘 出 的 图 形 与 前 面 的 plot (df) 相同 . 

男 一 方面 个 函数 是 coplot (). 当 有 三 、 四 个 变量 时 ， coplot () 可 以 将 散 点 
图 画 的 更 细 . 假设 a 和 b 是 数值 向 量 ， 并 且 c 是 向 量 或 因子 ( 所 有 变量 具有 相 
同 的 长 度 )， 则 

> coplot(a ~ b | c) 
绘 出 在 给 定 c 值 下 ， a 关于 bp 的 散 点 图 .仍然 以 学 生 的 年 龄 、 身 高 和 体重 的 数 
据 为 例 ， 
> coplot (Weight ~ Height | Age) 
绘 出 了 按 年 龄 段 给 出 的 体重 与 身高 的 散 点 图 ， 如 图 3.9 所 示 . 
对 于 四 个 变量 a，b，c，d, 还 可 以 有 如 下 命令 ; 
> coplot(a ~ b |lc+ad) 


即 按 c 、d 划分 下 ， a 关 于 的 散 点 图 . 
3. 显示 图 形 
其 他 的 高 水 平 绘图 函数 有 qqnorm(), hist(), dotchart(), contour() 等 . 











(1) qqnorm (x) 
qqline(x) 
qqplot (x, y) 
其 中 x，y 数值 型 向 量 ， 绘 出 数据 的 QQ 散 点 图 (已 在 3.2.2 节 介 绍 过 ). 
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Given : Age 
和 个 13 14 5 16 
Es 
53 60 65 70 
号 | 人 60 65 70 
区 1 1 1 1 
全 2 浊 
| oe 0 ?So OO o | O oo 
pb 6 i 
Height 
图 3.9: 按 年 龄 划分 的 体重 与 身高 的 散 点 图 
(2) hist(x) 
hist(x, nclass=n) 
hist(x, breaks=b, ...) 


其 中 x 数值 型 向 量 ， 绘 出 数据 的 直方 图 (已 在 3.2.2 节 介 绍 过 ). 
(3) dotchart (x, ...) 
构造 数据 x 的 点 图 .在 点 图 中 ， 


y 轴 是 数据 x 标记 ， x 轴 是 数据 x 的 数值 . 


例如 ， BR 软件 中 ， 数 据 VADeaths 给 出 了 Virginia (弗吉尼亚 ) 州 在 1940 年 
的 人 口 死亡 率 ， 
Rural Male Rural Female Urban Male Urban Female 
50-54 11.7 8.7 15 .4 8.4 
55-59 18 .1 11.7 24.3 13.6 
60-64 26.9 20.3 37 .0 19.3 
65-69 41.0 30.9 54.6 35 .1 
70-74 66 .0 54.3 71.1 50.0 
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我 们 画 出 该 数据 的 点 图 ， 
> dotchart (VADeaths, main = "Death Rates in Virginia - 1940") 
> dotchart(t(VADeaths), main = "Death Rates in Virginia - 1940") 


如 图 3.10 所 示 ， 其 中 (a) 是 第 一 个 命令 ， (p) 是 第 二 个 命令 . 
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(a) (b) 
图 3.10: Virginia 州 在 1940 年 的 人 口 死亡 率 的 点 图 


(4) image (x, y, Z, ...) 

contour(x, y, Z, ...) 

persp(Xx, y, Z, ...) 
其 中 x，y 是 数值 型 向 量 ，z 与 x 和 y 对 应 的 矩阵 (z 的 行 数 是 x 的 维 数 ，z 的 
列 数 是 y 的 维 数 )，image() 绘 出 三 维 图 形 的 映 象 ， contour() 绘 出 三 维 图 形 的 
等 值 线 ， persp() 绘 出 三 维 图 形 的 表面 曲线 . 
例 3.12 (山区 地 有 狐 图 ) 在 某 山 区 (平面 区 域 (0,2800) x (0,2400) 内 ， 单位: 米 ) 
测 得 一 些 地 点 的 高 度 ( 单位， 米 ) 如 表 3.3 所 示 . ” 试 作 出 该 山区 的 地 貌 图 和 等 
值 线 图 。 

解 : 输入 数据 ， 调 用 contour () 函数 画 等 值 ， 调 用 persp() 函数 画 三 维 图 

形 (程序 名 :， exam0312.BR). 

Xx<-seq(0,2800，400) ; y<-seq(0 ,2400 ,400) 


Z<-Scan() 
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表 3.3: 某 山区 地 形 高 度数 据 


2400 | 1430 1450 1470 1320 1280 1200 1080 940 


2000 | 1450 1480 1500 1550 1510 1430 1300 1200 
1600 | 1460 1500 1550 1600 1550 1600 1600 1600 
1200 | 1370 1500 1200 1100 1550 1600 1550 1380 
800 | 1270 1500 1200 1100 1350 1450 1200 1150 
400 | 1230 1390 1500 1500 1400 900 1100 1060 


1180 1320 1450 1420 1400 1300 700 900 





y/z 0 400 800 1200 1600 2000 2400 2800 


1180 1320 1450 1420 1400 1300 700 900 
1230 1390 1500 1500 1400 900 1100 1060 
1270 1500 1200 1100 1350 1450 1200 1150 
1370 1500 1200 1100 1550 1600 1550 1380 
1460 1500 1550 1600 1550 1600 1600 1600 
1450 1480 1500 1550 1510 1430 1300 1200 
1430 1450 1470 1320 1280 1200 1080 940 


Z<-matrix(z, nrow=8) 
contour(x, y, 2Z, levels = seq(min(z), max(z), by = 80)) 


persp(x, y, 2) 


将 绘 出 两 幅 图 形 ， 一 幅 是 等 值 线 图 ， 如 图 3.11(a) 所 示 ， 另 一 幅 是 三 维 曲面 ， 如 
图 3.11(b) 所 示 . 

我 们 可 以 看 到 ， 图 3.11 有 两 个 缺点 ， 一 是 过 于 粗糙 ， 其 原因 是 由 于 数据 量 
过 少 造 成 的 ， 如 果 数 据 量 稍 大 一 些 ， 图 形 质 量 将 会 有 很 大 的 改善 ; 二 是 三 维 图 的 
观察 角度 不 理想 ,， 这 是 由 于 只 用 到 函数 中 各 种 参数 的 缺 省 值 状态 ,如果 改 变 某 些 
参数 的 值 ， 图 形 的 观察 角度 也 会 随 之 改变 . 例如， 将 命令 改 成 


> persp(x, y, Z, theta = 30, phi = 45, expand = 0.7) 
其 观察 角度 将 好 的 多 . 
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(a) 等 值 线 图 (b) 三 维 曲面 图 
图 3.11: 三 维 数据 的 等 值 线 与 网 格 曲面 


例 3.13 在 [一 27,2pi] x [一 27,27| 的 正方 形 区 域内 绘 函 数 z = sin(z) sin(y) 的 等 
值 线 图 和 三 维 曲面 图 . 

解 : 写 出 相应 的 R 程序 (程序 名 : ”exam0313.R) 

x<-y<-seq(-2*pi, 2*pi, pi/15) 

f<-function(x,y) sin(x)*sin(y) 

z<-outer(x, y, £) 

contour (x,y,Z,c0ol="blue") 

persp(x,y,2z,theta=30, phi=30, expand=0.7,col="lightblue") 

注意 ， 在 绘 三 维 图 形 时 ， > 并 不 是 简单 地 关于 2 与 y 的 某 些 运算 ,而 是 需 
要 在 函数 f 关系 下 作 外 积 运 算 (outer(x，y，f)), 形成 网 格 ， 这 样 才能 绘 出 三 
维 图 形 ， 请 初学 者 特别 注意 这 一 点 ， 所 绘 出 的 图 形 如 图 3.12 所 示 . 在 绘图 命令 
中 增加 了 图 形 的 颜色 和 观察 图 形 的 角度 . 


3.3.2 ”高 水 平 绘图 中 的 命令 

在 高 水 平 绘 函 数 中 ， 可 以 加 一 些 命令 , 不 断 完善 图 的 内 容 , 或 增加 一 些 有 用 
的 说 明 . 

1. 图 中 的 逻辑 命令 


add = TRUE 表示 所 绘图 在 原 图 上 加 图 , 缺 省 值 为 add = FALSE, 即 新 的 图 蔡 
换 原 图 . 
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(a) 等 值 线 图 (b) 三 维 曲面 图 
图 3.12: 函数 z = sin(z) sin(y) 的 等 值 线 与 网 格 曲 面 
axes = FALSE 表示 所 绘图 形 没有 坐标 轴 ， 缺 省 值 为 axes = TRUE. 
2. 数据 取 对 数 


log = Nx! 表示 


x 轴 的 数据 取 对 数 ， log = "y" 表示 y 轴 的 数据 取 对 数 ， 


log = "xy" 表示 x 轴 与 y 轴 的 数据 同时 取 取 对 数 . 


3. type 命令 


e type="p" 绘 散 点 图 ( 缺 省 值 ); 

。 type="1" 绘 实 线 ; 

。 type="b" 所 有 点 被 实 线 连接 ; 

@ type="o" ee 

© type="h" 出 点 到 x 轴 的 竖 线 ， 

。 type="s" or "S" 绘 出 阶梯 形 曲 线 ， 
。 type="n" 不 绘 任何 点 或 曲线 . 


4. 图 中 的 字符 串 


xlab= 字符 串 ， 其 字符 串 的 内 容 是 x 轴 的 说 明 ， 
的 内 容 是 y 轴 的 说 明 . 


ylab= 字符 串 ， 其 字符 串 
main= 字符 串 ， 其 字符 串 的 内 容 是 图 的 说 明 ， 和 sub= 


字符 串 ， 其 字符 串 的 内 容 是 子 图 的 说 明 . 
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3.3.3 ” 低 水 平 作 图 函数 

有 时 高 水 平 的 作 图 函数 并 不 能 完全 达到 作 图 的 指标 ,需要 低 水 平 的 作 图 函数 
对 图 形 子 以 补充 . 所 有 的 低 水 平 作 图 函数 所 作 的 图 形 必 须 是 在 高 水 平 作 图 函数 所 
绘图 形 的 基础 之 上 ， 增 加 新 的 图 形 . 

低 水 平 作 图 函数 有 points() 、lines() 、text() 、abline() 、polygon() 、 
legend() 、title() 和 axis() 等 . 


1. 加 点 与 线 的 函数 

加 点 函数 是 points(), 其 作用 是 在 已 有 图 上 加 点 ,命令 points (x，y) 其 功 
能 相当 于 plot (x,y). 

加 线 函 数 lines (), 其 作用 是 在 已 有 图 上 加 线 ， 命令 lines (x，y) 其 功能 相 
当 于 plot (x, y, type="1"). 

2. 在 点 处 加 标记 

函数 text () 的 作用 是 在 图 上 加 标记 ， 命 令 格 式 为 : 

text(x, y, labels, ...) 


其 中 x,y 是 数据 向 量 ， labels 可 以 是 整数 ， 也 可 以 是 字符 串 . 在 缺 省 状态 下 ， 
labels=1:length(x)， 例 如 ， 需 要 绘 出 (7,y) 的 散 点 图 ， 并 将 所 有 点 用 数字 标 
记 ， 其 命令 为 

> plot(x, y, type = "n"); text(x, y) 





3. 在 图 上 加 直线 


函数 abline() 可 以 在 图 上 加 直线 ， 其 使 用 方法 有 四 种 格式 . 
(1) abline(a, b) 


表示 画 一 条 y= a 十 bx 的 直线 


(2) abline (h=y) 
表示 画 出 一 条 过 所 有 点 的 水 平 直线 . 
(3) abline (v=x) 


表示 画 出 一 条 过 所 有 点 的 竖 直 直线 . 
(4) abline (lm.obj) 
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表示 绘 出 线性 模型 得 到 的 线性 方程 . 以 第 二 章 的 例 2.3 为 例 , 说 明 该 命令 的 用 法 . 
输入 命令 (程序 名 ， add_line.R) 
rt<-read.table("exam0203.txt", head=TRUE); 
lm.sol<-lm(Weight “Height, data=rt) 
attach(rt) 
plot (Weight “Height); abline(lm.sol) 


得 到 学 生体 重 与 高 度 的 散 点 图 和 线性 回归 直线 ， 如 图 3.13 所 示 . 


Weight 














55 60 65 70 


Height 


图 3.13: 学 生体 重 与 高 度 的 散 点 图 和 线性 回归 直线 图 


函数 polygon() 可 以 在 图 上 加 多 边 形 ， 其 使 用 方法 为 
polygon(x, y, ...) 
以 数据 的 (z, 9) 为 坐标 ， 依 次 连接 所 有 的 点 ， 绘 出 一 多 边 形 . 
4. 在 图 上 加 标记 、 说 明 或 其 他 内 容 
在 图 上 加 说 明文 字 、 标 记 或 其 他 内 容 有 两 个 函数 . 一 个 是 加 图 的 题目 ， 用 法 


是 


title(main="Main Title", sub = "sub title",) 
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其 中 主题 目 加 在 图 的 项 部 ， 子 题目 加 在 图 的 底部 . 

男 一 个 是 在 坐标 轴 上 加 标记 、 说 明 或 其 他 内 容 ， 用 法 是 

axis(side, ...) 

其 中 side 是 边 ，side=1 表示 所 加 内 容 放 在 图 的 底部 ，side=2 表示 所 加 内 容 放 
在 图 的 左 侧 ， side=3 表示 所 加 内 容 放 在 图 的 项 部 ， side=4 表示 所 加 内 容 放 在 
图 的 右 侧 . 

在 R 软件 中 ， 还 有 其 他 一 些 作 图 函数 或 作 图 命令 ， 需 要 大 家 在 绘图 实践 中 
逐步 掌握 , 在 后 面 的 各 章 中 ， 结 合 相应 的 统计 知识 ， 还 会 介绍 更 加 深入 的 绘图 方 
法 . 


3.4 多 元 数据 的 数据 特征 与 相关 分 析 


在 上 述 各 市 的 分 析 中 ， 其 样本 数据 基本 上 是 来 自 一 元 总 体 X, 而 在 实际 情况 
中 ， 许 多 数据 来 自 多 元 数据 的 总 体 ， 即 来 自 总 体 (Xi1, X2,.…, Xb) . 对 于 来 自 多 
元 总 体 的 数据 ,除了 分 析 各 个 分 量 的 取 值 特点 外 ,更 重要 的 是 分 析 各 个 分 量 之 间 
的 相关 关系 ， 这 就 是 多 元 数据 的 相关 分 析 . 
3.4.1 ”二 元 数据 的 数字 特征 及 相关 系数 


设 (X,Y) 是 二 元 总 体 , 从 中 取得 观测 样本 (zt yi (22,y2) (Zn Yn). 
其 样本 观测 矩阵 为 
1 TX» 守 守 过 5 
民 Ya | : 


2- 1D 9- 1 


pe 


记 
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则 称 szz 为 变量 X 的 观测 样本 的 方差 ， 称 sw 为 变量 了 的 观测 样本 的 方差 ， 称 
szy 为 变量 X,Y 的 观测 样本 的 协 方差 ， 称 


为 观测 样本 的 协 方差 怎 阵 ， 称 
35 


一 
VSzzV Syy 





为 观测 样本 的 相关 系数 . 

在 R 软件 中 ， 计 算 二 元 样本 的 均值 方差 的 命令 基本 上 与 一 元 变量 的 命令 相 
同 ， 有 些 地 方略 有 一 些 改动 . 计算 多 元 数据 的 均值 与 方差 采用 数据 框 的 结构 输入 
数据 ， 在 计算 中 较为 方便 ， 看 下 面 的 例子 . 
例 3.14 某 种 矿石 有 两 种 有 用 成 分 A, B, 取 10 个 样本 ， 每 个 样本 中 成 分 4 的 含 
量 百分数 Z(%) 及 B 的 含量 百分数 Yy(%) 的 数据 如 表 3.4 所 示 . 计算 样本 的 均 





表 3.4: 矿石 中 有 用 成 分 含量 的 百分数 
xz(%) |67 54 72 64 39 22 58 43 46 34 


y(%) |1 24 15 23 19 16 11 20 16 17 13 


值 、 方 差 、 协 方差 和 相关 系数 . 
解 : 采用 数据 框 方式 输入 数据 , 用 mean() 函数 计算 均值 , 用 cov() 函数 计算 
协 方差 阵 , 用 cor() 函数 计算 相关 矩阵 ( 相关 系数 )、( 程序 名 : exam0314.R ) 
ore<-data.frame( 
x=c(67，54，72，64，39，22，58，43，46，34) ， 
y=c(24，15，23，19，16，11，20，16，17，13) 
) 


ore.m<-mean(ore); ore.s<-cov(ore); ore.r<-cor(ore) 
显示 结果 为 
> ore.m 


加 y 
49.9 17.4 
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> ore.s 
了 
x 252.7667 60.60000 
y 60.6000 17.15556 
> ore.r 
Xx y 
X 1.0000000 0.9202595 
y 0.9202595 1.0000000 
在 上 述 计算 中 ， var (ore) 得 到 的 计算 结果 与 cov(ore) 得 到 的 结果 相同 . 
函数 cov() 和 cor() 的 使 用 格式 为 
cov(x, y = NULL, use = "al1.obs'"， 
method = c("pearson", "kendall", "spearman'")) 
cor(x, y = NULL, use = "all.obs", 
method = c("pearson", "kendall", "spearman'")) 
其 中 x 是 数值 型 向 量 、 害 阵 或 数据 框 。 y 是 空 值 (NULL, 缺 省 值 ) 、 向 量 、 和 矩阵 或 
数据 框 ， 但 需要 与 x 的 维 数 相 一 致 . cov() 的 返回 值 是 协 方差 或 协 方差 矩阵 . 
cor() 的 返回 值 是 相关 系数 或 相关 矩阵 . 
与 cov 和 cor 有 关 的 函数 还 有 : ”cov.wt 一 计算 加 权 协 方差 (加 权 协 方差 
挫 阵 ); cor.test 一 计算 相关 性 检验 . 


3.4.2 ”二 元 数据 的 相关 性 检验 


对 于 一 般 的 检验 问题 我 们 将 在 第 五 章 讨论 , 这 里 主要 论述 二 元 数据 相关 性 的 
检验 问题 . 
对 于 二 元 数据 





(x1, 轨 ) (x2, 22) Oy (Zn 加) 


可 以 计算 出 样本 的 相关 系数 rw， 假设 样本 来 自 总 体 (X,Y), 由 第 一 章 的 知识 可 
知 ， 总 体 的 相关 系数 为 
Cov(X,Y) 


0 


那么 样本 的 相关 系数 与 总 体 的 相关 系数 有 什么 关系 呢 ? 
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可 以 证 明 ， 当 样本 个 数 n 充分 大 ， ray 可 以 作为 p(XK,Y) 的 估计 ， 也 就 是 
说 ， 当 样本 个 数 较 大 时 ,样本 相关 ， 总 体 也 相关 . 但 当 样 本 个 数 较 小 时 ， 就 无 法 
得 到 相应 的 结论 . 现在 的 问题 是 ， 当 样本 个 数 n 至 少 取 到 多 少时 ,样本 相关 才能 
保证 总 体 也 相关 ? 

Ruben (和 鲁 宾 ) 给 出 了 总 体 相关 系数 的 区 间 佑 计 (一 般 区 间 佑 计 的 知识 将 在 
第 四 章 作 详细 的 介绍 ) 的 近似 和 逼近 公式 . 设 n 是 样本 个 数 ，r 是 样本 相关 系数 ， 
wu 是 标准 正 态 分 布 的 上 a/2 分 位 点 ， 即 w == zoy2. 则 计算 











人 (3.16) 
~ Vir | 
a = 2n—3— wu, (3.17) 
b = rvV(2n 3)(2n 一 5)， (3.18) 
c = (2 一 5 一 sr 一 242. (3.19) 
求 方程 ay” 一 22 十 c=0 的 根 
b— VO —ac b+ VO —ac 
六 (3.20) 
则 1 一 a 的 双 侧 置信 区 间 为 
a | (的 


Vi+ 色 VI 二 级 
按照 公式 (3.16)-(3.21) 编写 出 及 程序 (程序 名 :”ruben.R) 


ruben.test <- function(n, r, alpha=0.05){ 
u <- qnorm(1-alpha/2) 
r_star <- r/sqrt(1-r“2) 
a <- 2*n-3-u’ 2 
b <- r_star*sqrt((2*n-3)*(2*n-5)) 
Cc <- (2*n-5-u 2)*r_star 2-2*u”2 
yl <- (b-sqrt(b*2-a*c))/a 
y2 <- (bt+sqrt(b*2-a*c))/a 
data.frame(n = n, r = r, conf = 1-alpha, 


L = yi/sgqrt(1it+y1°2), U = y2/sqrt(1+y2°2)) 
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当 n = 6,7 = 0.8 时 ， 调 入 已 编 好 的 函数 ruben.test(), 并 计算 得 到 
> source('"ruben.test.R") 
> ruben.test (6, 0.8) 
n IT conf L U 
160.8 0.95 -0.09503772 0.9727884 
置信 区 间 为 (一 0.095, 0.97), 其 置信 下 界 是 负数 ， 即 使 > = 0.8, 也 不 能 说 明 总 体 是 
考虑 n = 25, 7 = 0.7, 计算 得 到 
> ruben.test (25, 0.7) 


n r conf I U 


1 25 0.7 0.95 0.4108176 0.8535657 
置信 区 间 为 (0.41, 0.85), 此 时 ， 基 本 上 能 说 总 体 是 相关 的 . 
关于 和 置信 区 间 的 近似 逼近 方法 还 有 David (大 卫 ， 1954) 提出 的 图 表 方 法 ， 
Kendall ( 肯 德 尔 ) 和 Stuart (斯 图 亚 特 ， 1961) 提出 的 Fisher 逼近 方法 等 . 
确认 总 体 是 否 相 关 最 有 效 的 方法 是 作 总 体 (X,Y) 的 相关 性 检验 . 
可 以 证 明 ， 当 (X,Y)” 是 二 元 正 态 总 体 ， 且 p(X,Y) = 0, 则 统计 量 
2 (3.22) 











t= 


服从 自由 度 为 % 一 2 的 了 分布. 
利用 统计 量 t 服从 自由 度 为 n 一 2 的 + 上 分布 的 性 质 ， 可 以 对 数据 X 和 了 的 
相关 性 进行 检验 . 由 于 相关 系数 ray 被 称 为 Pearson (皮尔 森 ) 相关 系数 ， 因 此 ， 
此 检验 方法 也 称 为 Pearson 相关 性 检验 . 
对 于 相关 性 检验 ， 还 有 Spearman 秩 检 验 和 Kendall 秩 检 验 ， 这 里 只 介绍 用 
R 软件 进行 检验 的 方法 ， 有 关 检 验 原理 请 读者 参看 有 关 的 数理 统计 教材 . 
在 R 软件 中 ， cor.test() 提供 了 上 述 三 种 检验 方法 .其 使 用 方法 是 : 
cor.test(x, y, 
alternative = c('"two.sided", "less", "greater'"), 
method = c("pearson", "kendall", "spearman'"), 


exact = NULL, conf.level = 0.95, ...) 
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其 中 x，y 是 数据 长 度 相同 的 向 量 ，alternative 是 备 择 假设 ( 有关 概念 将 在 第 
五 章 中 详细 介绍 )， 缺 省 值 为 "two.sided", method 是 选择 的 检验 方法 ， 缺 省 什 
为 Pearson 检验 . conf .level 是 置信 区 间 水 平 ， 缺 省 值 为 0.95. 

cor .test() 函数 还 有 另 一 种 使 用 格式 

cor.test(formula, data, subset, na.action, ...) 

其 中 formula 是 公式 ， 形 如 ?mutv’,，’u?，?v” 必 须 是 具有 相同 长 度 的 数值 问 
量 . data 是 数据 框 . subset 是 可 选择 向 量 ， 表 示 观 察 值 的 子 集 . 
例 3.15 对 例 3.14 的 两 组 数据 进行 相关 性 检验 . 

解 : 
> attach(ore) 
> cor.test(x,y) 

Pearson’s product-moment Correlation 
data: x and y 
t = 6.6518, df = 8, p-value = 0.0001605 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.6910290 0.9813009 
sample estimates: 
cor 

0.9202595 
其 p 值 为 0.0001605 < 0.05, 拒绝 原 假设 ， 认 为 变量 X 与 了 相关 . 

实际 上 ， cor.test() 也 提供 了 相关 系数 的 区 间 估 计 ， 这 里 计算 的 区 间 是 
(0.69, 0.98), 因此 从 这 一 点 也 可 看 出 变量 X 与 Y 是 相关 的 . 

另外 可 用 


cor .test(X,yY，method="spearman'") 








cor.test(x,y, method="kendall") 


命令 作 男 外 两 种 检验 . 


3.4.3 ”多 元 数据 的 数字 特征 及 相关 和 矩 阵 
对 于 p 元 总 体 (Xi, 从 2， < 和 XXnh)， 其 样本 为 


(211， 尼 12)  ) 站 (Z21， X22,"**， Boy) s 人 (Zn1 Xn2,"**， Dp 
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汕 
和 
地 
泣 
第 
襄 
偿 
底 
> 
Ey 


其 中 第 i 本 样本 为 


(Zi Zi2 ip) 2 一 1,2,.……,n. 
样本 的 第 7 个 分 量 的 均值 定义 为 
二 
2 7 = 1,2,..……,p. 


样本 的 第 7 个 分 量 的 方差 定义 为 
1 Nn 





5 Fe >》 (zj — 7)’, 7 去 1,2, “**,P: 


nO—1< 
i=1 


样本 的 第 7 个 分 量 与 第 个 分 量 的 协 方 差 定 义 为 


nN 








1 _ 本 . 
si = HT (0 Di) (ei — Th), I hk 2 
RT = (ZT1, To, 的 人 为 p 元 样本 的 均值 ， 称 
S11 $12 *** S$1p 
a 
Spl Sp2 °°* Spp 
为 样本 的 协 方差 矩阵 . 
样本 的 第 7 个 分 量 与 第 k 个 分 量 的 相关 系数 定义 为 
Sjk 9 
Tjk 一 ) j,k= 1,2,...,%. 
4 VSIIV SR 
称 
Tl1 712 *** Tip 
721 722 :°° 7T2p 
Tpl Tp2 “°° Tpp 


为 样本 的 相关 和 矩阵 ( Pearson 相关 和 矩阵 ). 


(3.23) 


(3.24) 


(3.25) 


(3.26) 


(3.27) 


(3.28) 


对 于 多 元 数据 ， 与 二 元 数据 相同 ， 采 用 数据 框 的 输入 方式 ， 可 以 用 mean() 


函数 、 cov() 函数 和 cor() 函数 计算 样本 的 均值 、 协 方差 阵 和 相关 矩阵 . 


关于 相关 性 检验 ，R 软件 没有 为 多 元 数据 提供 更 多 的 函数 , 仍 是 cor test () 


作 两 两 分 量 的 相关 性 检验 . 
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例 3.16 为 了 解 某 种 橡 胺 的 性 能 , 今 柏 取 10 个 样品 ， 每 个 测量 三 项 指标 : 硬度 、 
变形 和 弹性 ， 其 数据 如 表 3.5 所 示 .， 试 计算 样本 均值 、 样 本 协 方差 阵 和 样本 相 


OO CO OD 0 上 中 已 博 


| 一 
> 


表 3.5: 橡胶 的 三 项 指标 
硬度 (X1) 





玫 性 《2 
27.6 
30.7 
31.8 
32.6 
31.0 
31.3 
37.0 
33.6 
33.1 
34.2 


关 算 阵 . 并 用 Pearsom 相关 性 检验 确认 变量 Xi, Xo, X3 是 否 相 关 ? 





解 : 建立 数据 文件 (文件 名 : 


X1 
65 
70 
70 
69 
66 
67 
68 
72 
66 
68 


‘OO 0 OO a OW DO -~ 


[re 
LD 


X2 
45 
45 
48 
46 
50 
46 
47 
43 
47 
48 


27 . 
30 . 
31 . 
32 . 
31 . 
31 . 
37 . 
33 . 
33 . 
34. 


p< 
CD 


DD ~ OO OO WW OO 0 oo ~ 路 


rubber .data), 其 格式 为 


读数 据 ， 并 计算 均值 、 协 方差 阵 和 相关 矩阵 


> rubber<-read.table('"rubber.data'") 
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> mean(rubber) 
X1 X2 X3 
68.10 46.50 32.29 
> cov(rubber) 
X1 X2 X3 
X1 4.766667 -1.9444444 1.9344444 
X2 -1.944444 3.8333333 0.6166667 
X3 1.934444 0.6166667 6.1898889 
> cor(rubber) 
X1 X2 X3 
X1 1.0000000 -0.4548832 0.3561291 
X2 -0.4548832 1.0000000 0.1265962 
X3 0.3561291 0.1265962 1.0000000 


> cor.test(~“X1+X2, data=rubber) 
Pearson’s product-moment correlation 
data: X1 and X2 
t = -1.4447, df = 8, p-value = 0.1865 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8430535 0.2448777 
sample estimates: 
cor 


-0.4548832 


> cor.test(~"Xi1+X3, data=rubber) 
Pearson’s product-moment correlation 
data: X1 and X3 
t = 1.078, df = 8, p-value = 0.3125 
alternative hypothesis: true correlation is not equal to 0 


95 percent confidence interval: 
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-0.3525486 0.8052056 
sample estimates: 
cor 


0.3561291 


> cor.test(~"X2+X3,data=rubber) 
Pearson’s product-moment correlation 
data: X2 and X3 
t = 0.361, df = 8, p-value = 0.7275 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.5465985 0.7003952 
sample estimates: 
cor 


0.1265962 
从 上 述 计 算 结果 可 以 看 出 ， 只 能 认为 Xi, XX2, Xs 两 两 均 是 不 相关 的 . 


3.4.4 ”基于 相关 系数 的 变量 分 类 


本 小 节 以 一 个 例子 说 明 相 关系 数 的 应 用 一 基于 相关 系数 的 变量 分 类 . 
例 3.17 现 有 48 位 应 聘 者 应 聘 某 公司 的 某 职 位 ， 公 司 为 这 些 应 聘 者 的 15 项 指 
标 打分 ， 这 15 项 指标 分 别 是 ， 求 职 信 的 形式 (FL) 、 外 貌 (4PP) 、 专 业 能 
(44) 、 讨 人 喜欢 (LA) 、 自 信心 (SC) 、 洞 察 力 (LC) 、 诚 实 (HON) 、 推 销 能 
(SMS) 、 经 验 (BXP) 、 驾 驶 水 平 (DRV) 、 事 业 心 (4MB) 、 理 解 能 力 (GSP) 、 
潜在 能 力 (POT) 、 交 际 能 力 (KJ) 和 适应 性 (SUIT). 每 项 分 数 是 从 0 分 到 10 
分 ， 0 分 最 低 ， 10 分 最 高 ， 每 位 求职 者 的 15 项 指标 列 在 表 3.6 中 .公司 计划 
录用 6 名 最 优秀 的 申请 者 ， 问 公司 将 如 何 挑 选 这 些 应 聘 者 ? 

解 : 通常 的 作法 是 : 作 15 项 指标 的 平均 值 


AVG = (FL + APP +...+ SUIT)/15, 





录用 分 数 最 高 的 6 名 应 聘 者 . 
录入 数据 (文件 名 :”applicant .data ) 
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表 3.6: 48 名 应 聘 者 的 得 分 情况 
IDIFL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT 





10 


8 10 9 9 


5 


10 


7 6 8 7 10 


7 


7 


10 
10 
10 
10 


10 
10 


10 
10 


7 8 8 8 


9 
7 
7 
7 
9 


9 
4 
4 
4 
6 


10 


10 
10 


10 3 10 


7 
3 
7 
9 


10 2 10 10 
10 0 10 8 


10 
11 
12 
13 


10 
10 


10 


8 


10 4 10 10 


10 5 4 


8 


10 


5 


10 


8 4 8 8 
8 4 7 8 
7 8 8 9 


7 


19 
20 


10 
10 
10 
10 
10 


4 


8 
7 8 9 10 


7 9 9 9 


10 
10 
10 


8 
10 


9 


22 


上 人- 
CC 
GN 


7 10 8 10 


8 


9 





24 
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48 名 应 聘 者 的 得 分 情况 


表 3.6 续 : 
IDIFL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT 





7 7 4 5 9 


9 


8 
10 


25 
26 
27 


7 8 5 4 


7 9 8 9 


7 
2 


10 


10 
10 
10 
10 


9 


4 7 8 4 


5 


31 


7 
7 
4 3 3 


6 


6 4 10 8 8 


9 


37 


10 
10 
10 
10 


10 10 
10 10 


10 
10 


8 
10 


10 
10 


10 
10 


10 
10 


10 
10 


10 9 10 
10 9 10 


0 


9 
9 
8 
8 


6 
6 
7 
3 


39|110 


40|110 


41|10 


42|10 


7 6 9 8 


7 
6 
8 
7 


7 
9 
9 
0 


44 
45 


10 
10 
10 
10 


10 9 7 了 


10 10 7 9 


46 


10 3 5 0 


47 


1 5 0 


10 
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FL APP AA LA SC LC HON SMS EXP DRV AMB GSP PUT KJ SUIT 
1 6 7 2 5 8 7 8 8 3 8 9 7 5 7 10 
2 9 10 5 810 9 9 10 5 9 9 8 8 8 10 
3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 10 


读数 据 ， 计 算 各 应 聘 者 的 平均 得 分 ， 再 将 平均 得 分 排序 (由 大 到 小 ), 得 到 
> rt <- read.table("applicant .data'") 
> AVG <- apply(rt, 1, mean) 
> sort(AVG, decreasing = TRUE) 


40 39 8 7 23 22 2 
9.600000 9.466667 9.000000 8.600000 8.600000 8.533333 8.466667 
24 9 10 16 3 44 12 


8.400000 8.133333 7.666667 7.666667 7.400000 7.400000 7.200000 


这 样 得 到 前 6 名 应 聘 者 是 : 40 、39、8、7、23 和 22 号 . 

将 上 述 语句 中 的 mean 改 为 sum 即 求 应 聘 者 的 总 得 分 ， 其 选择 结果 是 相同 
的 . 

显然 ,上 述 作法 认为 每 项 指标 的 权重 是 相同 的 . 当然 ,也 可 以 按 加 权 平 均值 


WTD_AVG = wiFL + woAPP 十 .… 十 159UIT， 


其 中 wi, 2 ,wis 是 权 值 ， 满足 如 十 wz 十 … 十 wis 二 1. wi(i=1,2,.…,15) 
表示 第 i 项 指标 的 重要 性 . 这 里 需要 确定 每 项 指标 的 权重 . 

上 述 两 种 方法 有 它 的 缺点 ， 因 为 有 些 指标 是 相关 的 ， 而 有 些 指标 不 相关 ， 只 
作 人 简单 的 平均 计算 ， 实 际 上 ， 相 关 类 多 的 项 占 的 权重 大 ， 而 相关 类 少 的 项 占 的 权 
重 小 ， 因 此 ， 在 作 评 分 前 ， 应 先 作 相关 性 分 析 . 

作 数 据 的 相关 性 计算 ,计算 相 关 甜 阵 


> cor(rt) 
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FL APP AA LA SC 
FL 1.00000000 0.2388057 0.044040889 0.306313037 0.092144656 
APP 0.23880573 1.0000000 0.123419296 0.379614151 0.430769427 
AA 0.04404089 0.1234193 1.000000000 0.001589766 0.001106763 
LA 0.30631304 0.3796142 0.001589766 1.000000000 0.302439887 
SC 0.09214466 0.4307694 0.001106763 0.302439887 1.000000000 
LC 0.22843205 0.3712589 0.076824494 0.482774928 0.807545017 
HON -0.10674947 0.3536910 -0.030269601 0.645408595 0.410090809 
SMS 0.27069919 0.4895490 0.054727421 0.361643880 0.799630538 
EXP 0.54837963 0.1409249 0.265585352 0.140723415 0.015125832 
DRV 0.34557633 0.3405493 0.093522030 0.393164148 0.704340067 
AMB 0.28464484 0.5496359 0.044065981 0.346555034 0.842122228 
GSP 0.33820196 0.5062987 0.197504552 0.502809305 0.721108973 
POT 0.36745292 0.5073769 0.290032151 0.605507554 0.671821239 
KJ 0.46720619 0.2840928 -0.323319352 0.685155768 0.482455962 
SUIT 0.58591822 0.3842084 0.140017368 0.326957419 0.250283416 

LC HON SMS EXP DRV 
FL 0.2284320 -0.106749472 0.27069919 “0.54837963 0.34557633 
APP 0.3712589 0.353690969 0.48954902 0.14092491 0.34054927 


AA 0.0768245 -0.030269601 0.05472742 0.26558535 0.09352203 
LA 0.4827749 0.645408595 0.36164388 0.14072342 0.39316415 
SC 0.8075450 0.410090809 0.79963054 0.01512583 0.70434007 
LC 1.0000000 0.355844464 0.81802080 0.14720197 0.69751518 


HON 0.3558445 1.000000000 0.23990754 -0.15593849 0.28018499 
SMS 0.8180208 0.239907539 1.00000000 “0.25541758 0.81473421 
EXP 0.1472020 -0.155938495 0.25541758 1.00000000 0.33722821 
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DRV 
AMB 
GSP 
POT 
KJ 
SUIT 


FL 
APP 
AA 
LA 
SC 
LC 
HON 
SMS 
EXP 
DRV 
AMB 
GSP 
POT 
KJ 
SUIT 


0.6975152 
0.7575421 
0.8828486 
0.7773162 
0.5268356 
0.4161447 
AMB 
0.28464484 


0.54963595 


0.04406598 
0.34655503 


0.84212223 
0.75754208 


0.21460636 


0.85952656 


0.19548192 


0.78032317 


1.00000000 


0.78387073 
0.76886954 
0.54712558 


0.43476824 
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0.280184989 
0.214606359 
0.385821758 
0.415657447 
0.448245522 
0.002755617 


GSP 
0.3382020 


0.5062987 


0.1975046 


0.5028093 
0.7211090 
0.8828486 


0.3858218 


0.7821232 


0.2992682 


0.7140732 
0.7838707 


1.0000000 


0.8758309 
0.5494076 
0.5278163 
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0.81473421 0.33722821 
0.85952656 0.19548192 
0.78212322 0.29926823 
0.75360983 0.34833878 
0.56328419 0.21495316 
0.55803585 0.69263617 

POT KJ 
0.3674529 0.4672062 
0.5073769 0.2840928 
0.2900322 -0.3233194 
0.6055076 0.6851558 
0.6718212 0.4824560 
0.7773162 0.5268356 
0.4156574 0.4482455 
0.7536098 0.5632842 
0.3483388 0.2149532 
0.7884002 0.6128077 
0.7688695 0.5471256 
0.8758309 0.5494076 
1.0000000 ”0.5393968 
0.5393968 1.0000000 
0.5738732 0.3957988 


1.00000000 
0.78032317 
0.71407319 
0.78840024 
0.61280767 
0.62255406 

SUIT 


0.585918216 


0.384208365 
0.140017368 
0.326957419 
0.250283416 
0.416144671 
0.002755617 


0.558035847 
0.692636173 
0.622554062 


0.434768242 


0.527816315 
0.573873154 


0.395798842 
1.000000000 


为 了 便于 选择 哪些 变量 是 相关 的 , 将 上 述 相关 和 矩阵 中 相关 系数 的 绝对 值 > 0.5 
的 值 画 上 下 划 线 . 


下 面 将 变量 分 组 ， 分 组 的 原则 是 : 同一 组 中 变量 之 间 的 相关 系数 尽 可 能 的 





高 ， 而 不 同 组 间 的 相关 系数 尽 可 能 的 低 . 从 相关 系数 最 大 的 变量 开始 ， 


LC( 洞 察 


力 ) 与 GSP( 理 解 能 力 ) 的 相关 系数 是 0.882, GSP 与 POT( 潜 在 能 力 ) 的 相关 系数 
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是 0.876, 而 LC 与 POT 之 间 的 相关 系数 是 0.777, 因此 ， 这 三 个 变量 可 以 看 成 一 
组 .SMS( 推 销 能 力 ) 也 应 该 包含 在 这 组 中 ， 因 为 它 与 LC 、GSP 和 POT 的 相 
关系 数 分 别 是 ， 0.818 、 0.782 和 0.754. AMB( 事 业 心 ) 也 应 在 此 组 中 ， 其 相关 
系数 分 别 是 ， 0.758 、 0.860 、 0.784 和 0.769. 进一步 研究 ， 发 现 变量 DRV (加 
驶 水 平 ) 和 SC( 自 信心 ) 也 就 在 此 组 中 . 此 组 中 各 个 变量 的 相关 系数 至 少 在 0.672 
以 上 . 

在 选择 第 二 组 的 变量 ， 按 照 同 样 的 原理 选择 FL( 求 职 信 的 形式 ) 、 EXP( 经 
验 ) 和 SUIT( 适 应 性 ), 其 相关 系数 分 别 是 :; 0.548 、 0.586 和 0.693. 

第 三 组 先 选 择 KJ( 交 际 能 力 ) 、 LA( 讨 人 喜欢 )， 相 关系 数 是 0.685, 现 选 择 
HON (诚实 ), 它 与 LA 的 相关 系数 是 0.645, 但 它 与 KJ 的 相关 系数 只 有 0.448. 由 
于 全 部 数据 均 来 自 “ 人 ”的 打分 ， HON 变量 分 在 此 组 也 可 以 认为 是 合理 的 . 

再 看 AA( 专 业 能 力 ) 、 APP( 外 貌 ) 两 个 变量 . AA 变量 与 其 他 变量 的 相关 
系数 没有 超过 0.5, 而 APP 变量 与 其 他 变量 的 相关 系数 虽然 刚刚 超过 0.5 的 , 但 
低 其 他 组 内 的 相关 系数 . 

最 后 得 到 五 个 组 : 

组 1: SC,LC, SMS, DRV, AMB, GSP 和 POT 
组 2: FL,EXP 和 SUIT 

组 3: LA, HON 和 KJ 

组 4: AA 

组 5: APP 

由 于 每 一 组 的 指标 基本 上 代表 了 同一 组 能 力 ， 因 此 ， 我 们 先 得 到 各 组 的 得 
分 ， 即 

















G1 = (SC+LC+ SMS 十 DRV 十 AMB + GSP + POT)/7 
G2 = (FL+ EXP- SUIT)/3 

G3 = (LA+HON- KI)/3 

G4 = AA 

Gs = APP 


最 后 ， 每 位 申请 者 的 得 分 是 : 
各 人 
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编写 相应 的 R 程序 (程序 名 group.R), 计算 得 到 


> attach(rt) 
> rt$G1<-(SC+LC+SMS+DRV+AMB+GSP+POT) /7 
> rt$G2<-(FL+EXP+SUIT) /3 
> rt$G3<- (LA+HON+KJ)/3 
> rt$G4<-AA 
> rt$G5<-APP 
> AVG<-apply (rt[,16:20] ,1, mean) 
> sort(AVG, decreasing = TRUE) 
8 40 39 7 23 9 2 
9.000000 8.971429 8.914286 8.619048 8.390476 8.209524 8.066667 
22 24 16 46 5 10 20 
8.057143 8.038095 7.571429 7.533333 7.314286 7.304762 7.219048 


在 分 组 情况 下 ， 前 6 名 应 聘 者 是 ， 8、40、39、7、23 和 9 号 . 
或 计算 分 组 情况 下 的 加 权 平 均 分 


WTD_AVG 一 2O1CG1 十 2Co 和 205CG5， 


其 中 wi 十 wz 十 … 十 ws 二 1. 


3.5 ”多 元 数据 的 图 表示 方法 


在 前 面 介绍 了 许多 数据 的 图 形 表示 方法 , 但 大 多 数 是 针对 一 、 二 元 数据 的 ， 
三 维 图 形 虽 然 能 画 出 来 , 但 并 不 方便 . 对 于 三 维 以 上 数据 如 何 来 描述 呢 ? 这 是 本 
节 要 讨论 的 问题 . 许多 统计 学 家 给 出 了 多 种 多 元 数据 的 图 示 方 法 , 但 这 方面 的 研 
究 还 处 于 不 成 熟 的 状态 ， 目 前 尚未 有 公认 的 方法 . 这 里 结合 R 软件 的 特点 ,介绍 
几 种 多 元 数据 的 图 示 方 法 . 

设 变量 是 2 维 数据 ， 有 7 个 观测 数据 ， 其 中 第 次 的 观测 值 为 


KX = (Th1, ZK2 ,Tkp), k= 1,2,..…,n, 
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n 次 观测 数据 组 成 矩阵 X = (zij)nxy: 
3.5.1 轮廓 图 


轮廓 图 由 以 下 作 图 步骤 完成 ， 
(1) 作 直 角 坐 标 系 ， 横 坐标 取 2 个 点 ， 以 表示 2 个 变量 ; 


(2) 对 给 定 的 一 次 观测 值 ， 在 p 个 点 上 的 纵 坐 标 ( 即 高 度 ) 与 对 应 的 变量 取 
值 成 正比 ; 


(3) 连结 此 p 个 点 得 一 折线 ， 即 为 该 次 观测 值 的 一 格 轮廓 线 ; 

(4) 对 于 m” 次 观测 值 ， 每 次 都 重复 上 述 步 又 ， 可 画 出 n 条 折线 ,构成 n 次 观 
测 值 的 轮廓 图 . 

编写 画 轮 廓 画 函 数 ( 函数 名 : outline.R ) 


outline <- function(x, txt = TRUE){ 








if (is.data.frame(x) == TRUE) 
x <- as.matrix(x) 
m <- nrow(x); n <- ncol(x) 
plot(c(1,n), c(min(x),max(x)), type = "n'", 
main = "The outline graph of Data", 
xlab = "Number", ylab = "Value'") 
for(i in 1:m)t 
lines(x[i,], col=i) 
if (txt == TRUE) 
k <- dimnames (x) [[1]] [i] 
text (1+(i-1)%%n, x[i,1i+(i-1)%%n] , k) 


} 
其 中 x 是 矩阵 或 数据 框 ._ txt 是 逻辑 变量 ， 当 txt = TRUE( 缺 省 值 ) 时 ， 绘 图 时 
给 出 观测 值 的 标号 ; 否则 (FALSE) 不 给 出 标号 . 函数 的 运行 结果 是 绘 出 n 次 观测 
值 的 轮廓 图 . 
例 3.18 为 考查 学 生 的 学 习 情 况 ， 学 校 随机 的 抽取 12 名 学 生 的 5 门 课 期 末 考 试 
的 成 绩 ， 如 表 3.7 所 示 . 画 出 12 名 学 生 学 习 成 绩 的 轮廓 图 . 
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表 3.7: 12 名 学 生 5 门 课程 的 考试 成 绩 





到 pa 0 
100 
97 
100 
96 
78 
97 
89 
88 
84 
39 
78 
37 


Oi oO Dm 0 WO 王 


解 : 将 数据 输入 到 数据 文件 中 (文件 名 : ”course.data )， 其 格式 为 


X1 X2 X3 X4 X5 
1 99 94 93 100 100 
2 99 88 96 99 97 
3 100 98 81 96 100 


读数 据 ， 利 用 编写 的 outline() 函数 


> X<-read.table('"course.data'") 
> source('"outline.R'") 


> outline(X) 
绘 出 数据 的 轮廓 图 ， 如 图 3.14 所 示 . 


由 轮廓 图 (图 3.14) 可 以 直观 的 看 出 ， 哪 个 学 生成 绩 相 似 、 哪 些 属于 优秀 、 
哪些 中 等 、 哪 些 较 差 ; 对 各 门 课程 而 言 ， 也 可 直观 地 看 出 各 课程 成 绩 的 好 坏 和 分 
散 情 况 等 等 这 种 图 形 在 聚 类 分 析 中 类 有 帮助 . 
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The outline graph of Data 














i 、 3 4 5 
Number 
图 3.14: 12 名 学 生 5 门 课 程 的 考试 成 绩 的 轮廓 图 
3.5.2 ” 星 图 
星 图 的 作 图 步 又 是 : 


(1) 作 一 圆 ， 并 将 圆周 p 等 分 ; 

(2) 连结 圆心 和 各 分 点 ， 把 这 p 条 半径 依次 定义 为 变量 的 坐标 轴 ， 并 标 以 适 
当 的 刻度 ; 

(3) 对 给 定 的 一 次 观测 值 ， 把 p 个 变量 值 分 别 取 在 相应 的 坐标 轴 上 ， 然 后 将 
它们 连结 成 一 个 p 边 形 ; 

(4) n 次 观测 值 可 画 出 n 个 p 边 形 . 

R 软件 包 给 出 作 星 图 的 函数 stars(, 例如 ， 画 出 例 3.18 中 12 名 学 生 学 习 
成 绩 的 星 图 ， 只 需 

> stars(X) 

就 可 画 出 星 图 ， 如 图 3.15 所 示 . 

星 图 中 水 平 轴 是 变量 Xi, 沿 逆 时 针 方 向 ,依次 是 Xa, XX3, .……. 由 于 星 图 既 像 
雷达 屏幕 上 看 到 的 图 像 ， 也 像 一 个 蜘蛛 网 ， 因 此 ， 星 图 也 称 为 雷达 图 或 蜂 蛛 图 . 
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图 3.15: 12 名 学 生 5 门 课程 的 考试 成 绩 的 星 图 


从 图 3.15 中 可 以 看 出 1 、 2 号 学 生 学 习 成 绩优 秀 ， 11 、 12 号 学 生 学 习 成 
绩 较 差 ， 而 7 、 10 号 学 生 偏 科 . 

函数 stars() 可 以 加 各 种 参数 ， 画 各 种 不 同 的 星 图 ， 其 使 用 方法 如 下 : 
stars(x, full = TRUE, scale = TRUE, radius = TRUE， 

labels = dimnames (x)[[1]], locations = NULL, 

nrow = NULL, ncol = NULL, len = 1, 

key.loc = NULL, key.labels = dimnames(x)[[2]], key.xpd = TRUE， 

xlim = NULL, ylim = NULL, flip.labels = NULL, 





draw.segments = FALSE, col.segments = 1l:n.seg, col.stars = NA, 
axes = FALSE, frame.plot = axes, 
main = NULL, sub = NULL, xlab = "", ylab = "",， 
cex = 0.8, lwd = 0.25, lty = par("lty"), xpd = FALSE， 
mar = pmin(par ("mar'"), 
1.1+ c(2*axes+ (xlab != ""), 


2x*axest+ (ylab != ""), 1,0)), 
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add = FALSE, plot = TRUE, ...) 
其 中 x 是 矩阵 或 数据 框 ，full 是 逻辑 变量 , 如 果 full = TRUE ( 缺 省 值 ), 则 星 图 
画 成 圆 的 ; 否则 (FALSE) 画 成 上 半圆 图 形 . scale 是 逻辑 变量 , 当 scale = TRUE 
( 缺 省 值 ), 数据 矩阵 的 每 一 列 是 独立 的 , 并 且 每 列 的 最 大 值 为 1, 最 小 值 为 0; 否则 
(FALSE) 所 有 星 图 会 车 在 一 起 . radius 是 逻辑 变量 ， 当 radius = TRUE ( 缺 省 
值 ), 绘 出 星 图 的 半径 构成 的 连 线 ; 否则 (FALSE) 绘 出 的 星 图 无 半径 构成 的 连 线 . 
len 是 半径 尺度 因子 ( 缺 省 值 为 1), 表明 星 图 的 比例 . key.1loc 是 一 个 由 x 与 y 
坐标 构成 的 向 量 ( 缺 省 值 为 NULL), 它 表 明 标 准星 的 的 位 置 . draw.segments 是 
逻辑 变量 ， 当 draw.segments = TRUE ( 缺 省 值 是 FALSE), 绘 出 的 星 图 是 一 段 一 
段 的 弧 .， 其 他 参数 的 使 用 方法 请 参见 在 线 帮 助 . 

调整 函数 stars() 中 的 参数 ， 可 将 例 3.18 中 12 名 学 生 学习 成 绩 的 星 图 画 
成 另 一 种 形式 

> stars(X, full=FALSE, draw.segments = TRUE， 
key.loc = c(5,0.5), mar = c(2,0,0,0)) 

画 出 星 图 如 图 3.16 所 示 . 


全 人 忆 
0 A a 


Ys ( 包 hd 
10 11 12 
X3 
X4 X2 


图 3.16: 12 名 学 生 5 门 课程 的 考试 成 绩 的 星 图 ( 带 参数 ) 
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3 
和 
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3.5.3 ”调和 曲线 图 


调和 曲线 图 是 Andrews (安德鲁 斯 ) 在 1972 年 提出 来 的 三 角 表 示 法 ， 其 思想 
是 将 多 维 空间 中 的 一 个 点 对 应 于 二 维 平 面 的 一 条 曲线 ， 对 于 p 维 数据 ， 假 设 X; 
是 第 7 观测 值 ， 即 








XT 一 (Zrl， Vr2,"**， Wi) 
则 对 应 的 调和 曲线 是 
f(t) = 态 二 Tr2 :Sin(t) + zr3: cos(t) + zra: Sin(2t) + zrs :cos(2t)+ 


十 … 十 ， —7<t<n. (3.29) 


n 次 观测 数据 对 应 n 条 曲线 ,现在 同一 张 平 面 上 就 是 一 张 调和 曲线 图 . 当 各 
变量 数据 的 数值 相差 太 悬 殊 ， 最 好 先 标 准 化 再 作 图 . 
按照 式 (3.29) 编写 画 调和 曲线 图 函数 ( 函数 名 : unison.R ) 
unison <- function(x){ 


if (is.data.frame(x) == TRUE) 





X <- as.matrix(x) 
t <- seq(-pi, pi, pi/30) 
m <- nrow(x); n<-ncol(x) 
f <- array(0, c(m,length(t))) 
for(i in 1:m){ 
f[i,] <- x[i,1]/sqrt(2) 
for( j in 2:n){ 
if (j%%2 == 0) 
f[i,] <- f[i,]+zx[i,j]*sin(j/2*t) 
else 


f[i,] <- f[i,]+x[i,j]*cos(j%/%2*t) 


} 
plot(c(-pi,pi), cl(min(f), max(f)), type = "n", 
main = "The Unison graph of Data", 


xlab = "t", ylab = "f(t)") 
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和 


for(i in 1:m) lines(t, f[i,] ，col = i) 
} 
其 中 x 是 矩阵 或 数据 框 ， 函数 的 输出 结果 是 调和 曲线 . 
例 3.19 画 出 例 9.18 中 12 名 学 生 学 习 成 绩 的 调和 曲线 图 . 
解 : 用 编 好 的 函数 unison() 作 图 ， 
> source('"unison.R") 
> unison(X) 


绘 出 调和 曲线 图 ， 如 图 3.17 所 示 . 


The Unison graph of Data 





f(t) 
100 200 300 
| | | 


0 
| 





—100 











图 3.17: 12 名 学 生 5 门 课程 的 调和 曲线 图 


Andrews 证 明了 三 角 式 多 项 式 图 有 许多 很 好 的 性 质 ， 这 种 图 对 聚 类 分 析 帮 
助 很 大 . 如 果 选 择 聚 类 统计 量 为 距离 ， 则 同类 的 曲线 拧 在 一 起 ， 不 同类 的 曲线 拧 
成 不 同 的 束 ， 非 常 直 观 . 

习题 三 


3.1 某 单 位 对 100 名 女生 测定 血清 总 蛋白 含量 (9/ 攻 ), 数据 如 下 : 
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74. 
79. 
75. 
73 . 
75 . 
70 . 
73 . 
67 . 
75 . 
73 . 


3 
5 
0 
5 
8 
4 
5 
2 
8 
5 


78 . 
75 . 
73 . 
75 . 
75 . 
72 . 
79 . 
76 . 
73 . 
79 . 


8 
6 
5 
0 
8 
0 
5 
5 
5 


5 


68 . 
75 . 
78 . 
72 . 
68 . 
76 . 
73 . 
72 . 
75 . 
70 . 


计算 均值 、 方 差 标准 差 、 


3.2 绘 出 习题 3.1 的 直方 图 、 密 度 估计 曲线 、 经 验 分 布 图 和 QQ 图 ， 并 将 密度 
估计 曲线 与 正 态 密度 曲线 相 比较 ， 将 经 验 分 布 曲线 与 正 态 分 布 曲线 相 比 较 (其 中 
正 态 曲 线 的 均值 和 标准 差 取 习 题 3.1 计算 出 的 值 ). 


8 78.0 70.4 80.5 80.5 69. 
0 78.8 72.0 72.0 72.0 74. 
8 74.3 75.8 65.0 74.3 71. 
0 64.3 75.8 80.3 69.7 74. 
8 76.5 70.4 71.2 81.2 75. 
5 74.3 76.5 77.6 67.3 72. 
5 74.7 65.0 76.5 81.6 75 
7 70.4 77.2 68.8 67.3 67. 
0 73.5 73.5 73.5 72.7 81. 
4 76.5 72.7 77.2 84.3 75. 
极 差 、 标 准 误 、 变 异 系 数 、 偏 


和 


章 数据 描述 性 


AN 


分 析 


3.3 绘 出 习题 9.1 的 芯 叶 图 、 箱 线 图 ， 并 计算 五 数 总 括 . 


3.4 分 别 用 W 检验 方法 和 Kolmogorov-Smirnov 检验 方法 检验 习题 3.1 的 数据 
是 否 服 从 正 态 分 布 . 


{le2 3 
3 71.2 72. 
2 69.7 68. 
3 73.5 73. 
0 70.4 68. 
0 75.0 74. 
-4 72,7 12. 
3 67.3 72. 
6 70.3 74. 
0 76.5 70. 
度 、 峰 度 ， 


本 WN NW OO 0 OO OA 


3.5 小 白鼠 在 接种 了 3 种 不 同 菌 型 的 伤 案 杆菌 后 的 存活 天 数 如 表 3.8 所 示 ， 


绘 出 数据 的 箱 线 图 (采用 两 种 方法 ， 一 种 是 plot 语句 ， 另 一 种 是 boxplot 语 
名 ) 来 判断 小 白鼠 被 注射 三 种 菌 型 后 的 平均 存活 天 数 有 无 显著 差异 ? 


3.6 绘 出 例 9.16 关于 三 项 指标 的 离散 图 , 从 图 中 分 析 例 3.16 的 结论 的 合理 性 . 





表 3.8: 白鼠 试验 数据 


3 2 4 
8 5 10 
6 6 7 


存活 日 数 
可 7 2 
7 12 12 
9 5 5 
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3.7 某 校 测 得 19 名 学 生 的 四 项 指标 ， 性 别 、 年 龄 、 身 高 (cm) 和 体重 ( 磅 ), 具体 


数据 由 表 3.9 所 示 . (1) 试 绘 出 体重 对 于 身高 的 散 点 图 ; 


表 3.9: 学 生 身高 、 体 重 的 数据 


01 Alice 
02 Becka 
03 Gail 
04 Karen 
05 Kathy 
06 Mary 
07 Sandy 
08 Sharon 
09 Tammy 
10 Alfred 
11 Duke 
12 Guido 


世 本 有 本 本 本 同 呈 叶 


三 区 多 


13 James 
14 Jeffrey 
15 John 
16 Philip 
17 Robert 
18 Thomas 
19 William 


二 





三 


况 下 ， 体 重 与 身高 的 散 点 图 ; (3) 绘 出 不 同年 龄 段 的 体重 与 身高 的 散 点 图 ; 


分 不 同性 别 和 不 同年 龄 段 的 体重 与 身高 的 散 点 图 . 


于 





体重 
84.0 
98.0 
90.0 
77.0 
84.5 
112.0 
50.5 
112.5 
102.5 
112.5 
102.5 
133.0 
83.0 
84.0 
99.5 
150.0 
128.0 
85.0 
112.0 


(2) 绘 出 不 同性 别 情 


(4) 


3.8 画 出 滩 数 z= 二 7 一 273Yy 十 人 一 225Yy 十 2 十 97 一 扳 十 4 在 区 域 -2<7z<3， 
一 ] <Yy <7 上 的 三 维 网 格 曲 面 和 二 维 等 值 线 ， 其 中 xX 与 9 各 点 之 间 的 间隔 为 
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0.05, 等 值 线 的 值 分 别 为 0, 1 2 9, 4, 5, 10, 15 20 30 40, 50 6080 100, 共 
15 条 . ( 注 ， 在 三 维 图 形 中 选择 合适 的 角度 . ) 

3.9 用 pearson 相关 检验 法 检验 习题 3.7 中 的 身高 与 体重 是 否 相 关 . 

3.10 绘 出 例 3.17 中 18 名 求职 者 数据 的 星 图 . (1) 以 15 项 自 变量 FL，APP， 
… SUIT 为 星 图 的 轴 ; (2) 以 G1, G2,"…,G5 为 星 图 的 轴 . 通过 这 些 星 图 ， 你 能 
否 说 明 应 选 哪 6 名 应 聘 者 . 为 使 星 图 能 够 充分 反映 应 聘 者 的 情况 ， 在 作 图 中 可 适 
当 调 整 各 种 参数 . 

3.11 绘 出 例 3.17 中 18 名 求职 者 数据 的 调和 曲线 ， 以 G1,G2,:…,Gs 为 自 变 


对 


-号 


重 ， 
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总 体 是 由 总 体 分 布 来 刻画 的 . 在 实际 问题 中 我 们 根据 问题 本 喘 的 专业 知识 或 
以 往 的 经 验 或 用 适当 的 统计 方法 ， 有 时 可 以 判断 总 体 分 布 的 类 型 , 但 是 总 体 分 布 
的 参数 还 是 未 知 的 , 需要 通过 样本 来 估计 . 例如 , 为 了 研究 人 们 的 市 场 消 费 行为 ， 
要 先 搞 清楚 人 们 的 收入 状况 . 若 假 设 某 城 市 人 均 年 收入 服从 正 态 分 布 N(j,0”)， 
但 参数 上 和 o? 的 具体 取 值 并 不 知道 ， 需 要 通过 样本 来 估计 .又 如 ， 假 定 某 城市 
在 单位 时 间 ( 壁 如 一 个 月 ) 内 交通 事故 发 生 次 数 服从 Poisson 分 布 P(A), 其 中 的 
参数 和 也 是 末 知 的 , 同样 需要 用 样本 来 估计 . 根据 样本 来 估计 总 体 分 布 所 包含 的 
未 知 参 数 ， 叫 作 参 数 估计 (parametric estimation). 它 是 统计 推断 的 一 种 重要 形 
式 . 

如 何 根据 样本 的 取 值 来 寻找 这 些 参 数 的 估计 呢 ? 通常 有 两 种 形式 :一 种 称 
为 点 估计 (point estimation), 另 一 种 称 为 区 间 佑 计 (interval estimation). 点 估计 
就 是 用 一 个 统计 量 来 估计 一 个 未 知 参数 . 点 佑 计 的 优点 是 : 能 够 明确 地 告诉 人 们 
“未 知 参数 大 致 是 多 少 ”. 其 缺点 是 ， 不 能 反映 出 估计 的 可 信 程度 .区 间 估 计 是 用 
两 个 统计 量 所 构成 的 区 间 来 估计 一 个 未 知 的 参数 , 并 同时 指明 此 区 间 可 以 覆盖 住 
这 个 参数 的 可 靠 程度 (置信 度 ). 它 的 缺点 是 : 不 能 直接 地 告诉 人 们 “未 知 参 数 具 
体 是 多 少 ” 这 一 明确 的 概念 . 





4.1 点 估计 


设 总 体 X 分 布 由 有 限 个 未 知 参数 0 = (0 9 …,g) 所 决定 ， 记 为 fo, 称 
0 可 能 取 值 的 范围 为 参数 空间 (parameter space), 记 作 6. 

记 zi;0) 为 总 体 X 的 概率 密度 函数 或 分 布 律 , 独 总 体 X 分 布 为 连续 型 的 ， 
则 f(x;9) 是 概率 密度 函数 . 若 总 体 X 分 布 为 离散 型 的 ， 则 f(x;9) 是 分 布 律 . 例 
如 ， 对 于 Poisson 分 布 P(A), 9 = 入 就 是 1 维 未 知 参数 . 对 于 正 态 分 布 N (40)， 
0= (1,0”) 就 是 2 维 未 知 参数 . 

为 了 估计 总 体 X 的 参数 0, 就 要 从 总 体 X 中 抽出 一 个 样本 X1, XX2,…… ,XX 
( 即 Xi 关 2,…,Xh 是 独立 同 分 布 ), 它们 的 共同 分 布 就 是 总 体 分 布 f(x;0). 为 了 估 
计 0, 需要 构造 适当 的 统计 量 0(X1, X2，，…, X), 它 只 依赖 于 样本 ， 不 依赖 于 未 知 
参数 . 也 就 是 说 , 一 旦 有 了 样本 Xi1, X2，…,X， 就 可 以 计算 出 0(X1, 2 
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的 值 ， 作 为 9 的 估计 值 ， 称 统计 量 0(X1, X2,.…, X) 为 0 的 估计 ， 简 记 为 0. 
为 未 知 参数 9 和 估计 0 都 是 空间 上 的 点 ， 因 此 称 这 样 的 估计 为 点 估计 .寻找 点 
估计 的 常用 方法 有 : 和 矩 法 、 极 大 似 然 法 和 最 小 二 乘法 等 . 
4.1.1 算法 

和 矩 法 (method of moments) 是 由 英国 统计 学 家 K . Pearson 在 20 世纪 初 提 
出 来 的 ， 它 的 中 心思 想 就 是 用 样本 矩 去 估计 总 体 甜 . 

设 总 体 X 的 分 布 中 的 未 知 参数 为 0 = (1,0。,…,0m)7 ,假定 总 体 关 的 及 阶 

也 (X 一 ak(0 0 0 天 一 12 7 

存在 ， 我 们 令 总 体 的 & 阶 原点 矩 等 于 它 样 本 的 阶 原 点 矩 


es 
2 k= 1,2,...,m, 


即 


1 Nn 
Qn(01,02,...,0m) = E(X*) = 和 2 (4.1) 
i=1 


由 方程 (4.1) 可 以 得 到 关于 未 知 量 9 的 解 


入 入 


0; = 0;(X1, X2,:, Xn), 人 三 1,2,.….,m. (4.2) 
取 6= ( 扣 ,0,…,O%)” 作 为 9 = (000 gm)7 的 估计 ， 则 称 6 为 0 的 矩 估 计 
(estimation by moments), 用 惩 佑 计 参 数 的 方法 称 为 矩 法 . 
例 4.1 设 总 体 X 的 均值 为 J, 方差 为 02, Xi1, Xa……，Xn 是 来 自 总 体 六 的 一 个 
样本 ， 试 用 抠 方 法 估计 均值 ,和 方差 07. 
解 : 计算 总 体 X 的 一 阶 、 二 阶 原点 冠 
Ql 二 bE(X) = HW, 
Qs = FE(X*)= Var(X)+[E(X) ”=o +p. 


和 样本 的 一 阶 、 二 阶 原点 矩 


Ai= J 42 = 32 
i=1 i 二 1 
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由 式 (4.1) 得 到 方程 组 


1 一 XX， 
02 十 /2 = 2 
解 上 述 方程 组 得 到 均值 / 和 方差 o” 的 矩 估计 
hh = X, (4.3) 
62 = 3 a 1 0 = (4.4) 


需要 特别 注意 的 是 : 方差 的 矩 估 计 并 不 等 于 样本 方差 9, 而 是 有 如 下 关系 式 
2 nN—1,, 
人 5°. (4.5) 
对 于 正 态 分 布 N(1,0”), 因为 4 和 0? 分别 为 总 体 的 均值 和 方差 ， 由 式 (4.3) 
和 式 (4.4) 得 到 参数 人 和 ”的 矩 估 计 





从 上 述 过 程 ， 可 以 看 到 ， 利 用 移 法 估计 均值 和 方差 ， 就 等 价 于 用 样本 的 一 阶 
原点 矩 佑 计 均 值 ， 用 样本 的 二 阶 中 心 矩 估计 方差 . 
例 4.2 设 总 体 X 服从 指数 分 布 ， 密 度 函 数 是 
Me ~”, x>0, 
三 | 


0 2Z < 0， 


其 中 入 是 未 知 参数 . 车 XX1,X2,…,Xn 来 自 总 体 头 的 一 个 样本 ， 试 用 矩 估 法 估 
计 参 数 入 . 
解 : 指数 分 布 的 一 阶 矩 (均值 ) 是 1/ 和 , 因此 ， 它 的 估计 是 


3 
i=1 


Xn 是 总体 | X 的 一 i 试用 乱 法 估计 参数 0. 
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解 : 均匀 分 布 的 一 阶 矩 (均值 ) 是 0/2, 因此 ， 它 的 估计 是 


人 


例 4.4 设 总 体 X 是 区 间 [a, 中 上 的 均匀 分 布 ， 其 中 @ 是 未 知 参数 ， XI，X， 
…, Xn 是 总 体 X 的 一 个 样本 ， 试 用 和 矩 估 法 估计 参数 a 和 

解 , 由 例 4.1 的 计算 过 程 ( 式 (4.3)-(4.4) ) 可 知 , 用 一 、 二 阶 原点 矩 作 估计 ， 
本 质 上 相当 用 一 阶 原点 估计 均值 ， 二 阶 中 心 矩 估计 方差 ， 即 


EC = 年 = 二 》 大， 三 感 = (人 = 
i=1 


i=1 


均匀 分 布 的 均值 是 (5 一 a)/2, 方差 是 (5 一 a)”/12, 所 以 令 








LC (oe ga 
2 1 
解 上 述 方程 组 得 到 a 和 5 的 估计 分 别 为 
6 = V3M, b=X+V3M. (4.6) 


如 果 不 能 得 到 方程 (4.1) 解 的 解析 表达 式 ， 则 可 以 通过 数值 的 方法 求解 方程 
(4.), 得 到 相应 的 矩 估计 
例 4.5 设 总 体 X 服从 二 项 分 布 B(k,p), 其 中 上,p 为 未 知 参数 ， XXX 
是 总 体 X 的 一 个 样本 ， 求 参数 有,p 的 矩 估计 此, 育 . 

解 : 尽管 本 例 可 以 得 到 方程 (4.1) 解 的 解析 表达 式 ， 但 为 了 演示 数值 计算 的 
过 程 和 比较 数值 计算 的 精确 程度 ， 这 里 还 是 采用 数值 计算 的 方法 进行 矩 估计 ， 

二 项 分 布 的 均值 总体 一 阶 原点 矩 ) 是 kp, 方差 总体 二 阶 中 心 矩 ) 是 kp(1 一 
Dp). 建立 方程 组 





kp—X=0, kp(l1—p)— M,=0. (4.7) 
编写 相应 的 及 函数 (程序 名 : ”moment_fun.R) 


moment_fun<-function(p){ 
f<-c(p[1i]*p[2]-A1, p[i]j*p[2]-p[1]*p[2] “2-M2) 
J<-matrix(c(p[2] , p[1], 
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p[2]-p[2] “2, p[1]-2*p[1]*p[2]), 
nrow=2, byrow=T) 
list(f=f, J=J) 
} 
其 中 p[1] 表示 参数 六 p[2] 表示 参数 p, £ 是 由 方程 (4.7) 左 端 构造 的 函数 ， J 
为 函数 £ 的 Jacobi 矩阵 . 
考虑 用 Newton 法 ( 见 第 二 章 2.9.3 节 ) 求解 非 线性 方程 组 (4.7), 其 中 样本 取 
值 由 随机 数 产 生 . 建立 矩 佑 计 的 R 函数 (程序 名 moment_estimate .BR) 
x<-rbinom(100, 20, 0.7); n<-length(x) 
Ai<-mean(x); M2<-(n-1)/n*var(x) 
source('"moment_fun.R"); source('"Newtons.R'") 
p<-c(10,0.5); Newtons(moment_fun, p) 
在 程序 中 ， 第 一 句 是 产生 100 个 天 = 20, p = 0.7 的 二 项 分 布 的 随机 数 ， 第 
二 句 是 计算 样本 均值 (样本 一 阶 原点 矩 ) 和 样本 二 阶 中 心 矩 ， 第 三 句 是 调 入 已 编 
好 的 程序 moment_fun.R 和 Newtons.R, 其 中 source() 语句 是 已 编 好 的 程序 调 
入 内 存 ， 其 使 用 格式 是 : 
source("FileName") 
文件 名 ("FileName") 中 可 以 包含 文件 的 路 径 . 
最 后 一 句 是 给 出 初 值 ， 调 用 Newton 法 计算 方程 的 根 ， 其 计算 结果 如 下 
$root 
[1] 19.4957061 0.7237491 
$it 
[1] 11 
$index 
[车 ,法 
$FunVal 
[1] 0.000000e+00 -2.220446e-15 
经 过 11 次 迭 代 ， 得 到 计算 结果 . 
下 面 给 出 方程 (4.7) 解析 解 的 计算 结果 





一 一 2 P= 
> 支 = 
k= = 19.49571， = 二 一 
hf 


= 0.7237491 








196 第 四 章 参数 估计 


两 考 比较 ， 误 差 是 很 小 的 . 

此 例 表 明 ， 在 无 法 得 到 方程 (4.1) 解析 解 的 情况 下 ， 利 用 数值 计算 ， 得 到 数 
值 解 也 不 失 一 种 较 好 的 方法 . 

通过 上 述 的 例子 可 以 看 出 ,算法 的 优点 是 : 在 其 能 用 的 情况 下 ,计算 往往 很 
简单 .但 矩 法 相对 其 他 估计 方法 ， 如 极 大 似 然 法 ， 其 效率 往往 较 低 . 


4.1.2” 极 大 似 然 法 


极 大 似 然 法 是 Fisher( 费 希 尔 ) 在 1912 年 提出 的 一 种 应 用 非常 广泛 的 参数 佑 
计 方 法 ， 其 思想 始 于 Gauss 的 误差 理论 ， 它 具有 很 多 优良 的 性 质 . 它 充 分 利用 总 
体 分 布 函数 的 信息 ， 克 服 了 和 矩 法 的 某 些 不 足 . 
设 9 是 参数 空间 ， 参 数 9 可 取 9 的 所 有 值 ， 在 给 定 样本 的 观察 值 (x1, x2， 
… Tn) 后 ， 不 同 的 0 对 应 于 (Xi1, X2, +, Xn) 落 入 (Z1 T2, nm) 的 邻 域内 的 
概率 大 小 不 同 ， 既 然 在 一 次 试验 中 就 观察 到 了 (Xi1, XX2, …, Xn) 的 取 值 为 (Z1， 
ZT2，…， Tn), 因此 ， 可 以 认为 0 是 最 有 可 能 来 源 于 使 (Xi X2，……， Xn) 落 入 (1， 
z2; …， Zn) 邻 域内 的 概率 达到 最 大 者 0, 即 


TI f (xi;0 0) = -spII7 (zi;0 (4.8) 
i=1 


O<9 ; 


取 0 作为 0 的 估计 ， 这 就 是 极 大 似 然 原理 . 

注意 到 ， 当 X 为 连续 型 随机 变量 时 ， 式 (4.8) 中 的 f(zi;9) 是 参数 的 取 值 为 
0 时 ，X 的 概率 密度 函数 在 x; 处 的 取 值 ， 当 X 为 离散 型 随机 变量 时 ， f(xi; 9) 
为 参数 9 时 ， XX 取 zi 的 概率 (分 布 律 ). 
定义 4.1 设 总 体 X 的 概率 密度 函数 或 分 布 律 为 (7X;0), 0 € 日 是 未 知 参数 ， 
XX1, Xo,……, Xn 来 自 总 体 X 的 样本 ， 称 


Pl) = (Oi War) | | 0) 


为 0 的 似 然 画 数 (likelihood function). 

显然 ， 寿 样本 取 值 x 固定 时 ， L(9;7x) 是 0 的 函数 ,者 参数 0 固定 ， 当 XX 
为 连续 型 随机 变量 时 ， 它 就 是 样本 (Xi X2,.…, Xn) 的 联合 概率 密度 函数 ; 当 X 
为 离散 型 随机 变量 时 ， 它 就 是 样本 (X1, X2,.…, Xn) 的 联合 分 布 律 . 
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定义 4.2 设 总 体 久 的 概率 密度 函数 或 分 布 律 为 f(7;0), 9 E 日 是 未 知 参 数 ， 
Xi X2……,Xn 来 自 总 体 X 的 样本 ， ZL(bi7) 为 0 的 似 然 函数 ， 若 0 = 0(X) 
= 6(X1, Xz,…，Xn) 是 一 个 统计 量 且 满足 
ZL(0(X);X) = sup L(O; X), 
bee 

则 称 0(X) 为 9 的 极 大 似 然 估计 (marimum likelihood estimation), 简 记 为 MLE. 
用 极 大 似 然 估计 来 估计 参数 的 方法 为 称 极 大 似 然 法 . 

下 面 分 不 同情 况 介 绍 极 大 似 然 法 的 求解 过 程 . 

(1) 似 然 函数 L(0; 关 ) 为 9 的 连续 函数 ， 且 关于 9 的 各 分 量 的 偏 导数 存在 . 

设 0 是 m 维 变量 ， 且 6 C R" 为 开 区 域 ， 则 由 极 值 的 一 阶 必要 条 件 ， 得 到 


OL(0; X) a 
0. "0 .li2 (4.9) 


通常 称 式 (4.9) 为 似 然 方程 . 由 于 独立 同 分 布 的 样本 的 似 然 函数 L(0; XX) 具有 连 
乘积 的 形式 ， 故 对 L(0; XX) 取 对 数 后 再 求 偏 导数 是 方便 的 ， 因 此 实用 上 党 采用 与 
(4.9) 等 价 的 形式 











OlnL(0;X) 
O00; 

称 式 (4.10) 为 对 数 似 然 方程 (loglikelihood equation). 

值得 注意 的 是 : 由 极 值 的 必要 条 件 知 ， 极 大 似 然 估计 一 定 是 似 然 方程 或 对 数 
似 然 方程 的 解 ,但 似 然 方程 或 对 数 似 然 方程 的 解 未 必 都 是 极 大 似 然 估计 . 严格 地 
讲 ， 似 然 函数 L(9; 关 ) 或 对 数 似 然 函 数 ZX) 对 于 参数 0 的 二 阶 Hesse 矩阵 
V3L(0;X) 或 V3mnZ(b;X) 负 定 ( 若 0 是 一 元 变量 ， 4 < 0 或 二 nop20 < 
0), 则 似 然 方程 或 对 数 似 然 方程 的 解 才 是 极 大 似 然 估计 . 
例 4.6 设 总 体 X 服从 正 态 分 布 N(1,O )， 其 中 /0 为 未 知 参数 ，X1,X2，…… ,Xn 
是 来 自 总 体 X 的 一 个 样本 ， 试 用 极 大 似 然 法 估计 参数 (1 a2). 

解 ， 正 态 分 布 的 似 然 函数 为 


1 
L(p,0°; 7) -II Vi NO (2ro” ) 2 Exp -起 > (Zr -| ) 


i=1 


5 (4.10) 





相应 的 对 数 似 然 函数 为 


nN 


rs A 2 1 2 
InL(4,0°;7) = -5 ln(27o ) 一 5 一 从) 


2 一 工 
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人 
OlnL(u,o;x) 1 
eh 

人 i1 
OlnL(n,o’;z) n 下 二 
a 


解 此 似 然 方 程 组 得 到 ; 


是 负 定 矩阵 ， 所 以 EG -De - 宁 ) 是 ZU oz) 的 极 大 值 点 . 故 (1 0” 
i 二 1 
极 大 似 然 估计 是 
jy lV lV xR 
Da 6 2 XY 


与 例 4.1 相 比 较 ， 两 者 的 计算 结果 是 相同 的 . 
例 4.7 设 总 体系 的 服从 指数 分 布 ， 密 度 函 数 是 
| 和 ez， rz>0, 


0 2Z < 0， 


f(z) = 


) 的 


其 中 入 是 未 知 参数 . 车 1,X2,.…,，Xn 来 自 总 体 头 的 一 个 样本 ， 试 用 极 大 似 然 


估计 求 参 数 入 . 
解 : 只 考虑 z; > 0 部 分 ， 指 数 分 布 的 似 然 函 数 为 


nN 


L(A; x) = He = Xexp - S30 , 


i=1 


相应 的 对 数 似 然 函数 为 


In L(A; Zz) =nlnA— A zi 


i=1 
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今 
Oln L(A;z) 
0 
解 此 似 然 方程 组 得 到 ， 
入 =n Ti. 
/> 
由 于 二 了 2 全 下 -一世 < 0 因此，n/ Dz 是 LOiz) 的 极 大 值 点 故 和 的 
i=1 


极 大 似 然 舍 计 是 %/ DX 


与 例 4.2 相 比较 ， 两 者 的 计算 结果 也 是 相同 的 . 

(2) 似 然 函数 LUb;7) 关于 0 有 间断 点 . 

当 6 为 Rm 中 的 开 区 域 ， 此 时 求 似 然 方 程 组 解 的 方法 不 适用 ， 要 具体 问题 
具体 分 析 . 
例 4.8 设 总 体 X 是 区 间 [a, 站 上 的 均匀 分 布 ， 其 中 a,b 是 未 知 参数 ， X1，X2， 
…， XX 是 总 体 X 的 一 个 样本 ， 试 用 极 大 似 然 法 估计 参数 a 和 

解 ; 对 于 样本 Xi X2,.…,X,, 其 似 然 函 数 为 


1 
~， 若 a < zi 全 b, i=1,2,.……,n, 


L(a,b;7) = | 0—a) 
0， 其 它 . 


很 显然 ，Z(a 2zZ) 不 是 (a,0) 的 连续 函数 ,因此 不 能 用 似 然 方程 组 (4.10) 求解 ， 
而 必需 从 极 大 似 然 佑 计 的 定义 出 发 来 求 L(a, 5; zx) 的 最 大 值 . 为 了 使 L(a, 0;x) 达 
到 最 大 ， 则 5 一 a 应 该 尽 可 能 的 小 ， 但 5 不 能 小 于 max{z1, 7X2,…, zn}; 否则 
L(a,b;7X) = 0. 类 似 地 ，a 不 能 大 于 min{fzi x2,…, xn}. 因此 ，a 和 5 的 极 大 似 
然 估计 为 


证 让 
同样 的 理由 ， 若 用 极 大 似 然 法 估计 侈 4.5 中 的 9, 得 到 的 结果 是 
0 = Xm). 


对 于 这 两 个 例子 ， 极 大 似 然 法 与 矩 法 佑 计 出 的 值 是 不 相同 的 
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(3) 6 为 离散 参数 空间 . 

在 此 情况 下 ， 为 求 极 大 似 然 估计 ， 经 常 考 虑 参数 取 相 邻 的 值 时 ， 似 然 函 数 的 
比值 . 
例 4.9 在 鱼池 中 随机 地 捕捞 500 条 鱼 , 做 上 记号 后 再 放 入 池 中 , 待 充分 混合 后 ， 
再 捕捞 1000 条 ， 结 呆 发 现 其 中 有 72 条 鱼 带 有 记号 . 试问 鱼池 中 可 能 有 多 少 条 
鱼 ? 

解 ， 先 将 问题 一 般 化 ， 设 池 中 用 条 鱼 ， 其 中 7 条 人 带 有 记号 ， 随 机 地 捕捞 
到 s 条 ， 发 现 z 条 带 有 记号 ， 用 上 述 信息 来 估计 N. 

用 和 记 捕 捞 到 的 s 条 鱼 中 带 有 记号 的 鱼 数 ， 则 有 
CrCY 


P{X =2Z} = Ce 
N 





因此 ， 似 然 函 数 为 
L(N;zx) = P{X = 7), 
考虑 似 然 函数 的 比 


(N) = LN;z) (Ns(N-r) NM 一 (r+s)N+rs 
4 YN-lz N(N—r—s+z) N22— (r+s)N+zrNi 


当 rs>>ZXN 时 ， 有 og(N)>1, 当 rs<ZxN 时 ， 有 g(N)<1. 即 
L(N;z) > L(N — 1;2), 当 N < 一， 
I es 当 N > 二 
因此 ， 似 然 函数 L(N;z) 在 NN = 二 附近 达到 极 大 ， 注 意 到 N 只 取 正 整数 ， 易 
得 N 的 极 大 似 然 估计 为 : 
人 Ts 
val 
其 中 「 . ] 表示 下 取 整 ， 即 小 于 该 值 的 最 大 整数 . 
y 人 500 x 1000 
将 喇 目 中 的 数字 代入 , 得 到 友 一 | 2 
估计 为 6944 条 . 
(4) 如 果 在 解 (对 数 ) 似 然 方程 时 无 法 得 到 解析 表达 式 ， 只 能 采用 数值 方法 . 


| = 6944 即 鱼 池 中 和 的 总 数 
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例 4.10 设 总 体 X 服从 Cauchy 分 布 ， 其 概率 密度 函数 为 


1 


f(z;0) 


一 co < 7Z < co， 
其 中 0 为 未 知 参数 . Xi, 义 2, .…, Xn 来 自 总 体 区 的 样本 ， 求 0 的 极 大 似 然 估 
计 

解 ， Cauchy 分 布 的 似 然 函 数 为 


Dow | f(xi;0 )= 却 [i 
i=1 


i=1 


相应 的 对 数 似 然 函数 为 
lInL(0;7) = —nln(x )- Dl (1 + (xi— 0)’), (4.11) 
得 到 对 数 似 然 方 程 
b= 0 ee 


1 


2 


可 以 看 到 ， 得 到 对 数 似 然 方程 (4.12) 的 解析 解 是 困难 的 ， 下 面 考虑 用 R 软 
件 求 数值 解 . 
在 第 二 章 (2.9.1 ) 介绍 了 方程 求 根 函 数 uniroot (), 这 里 用 它 求 似 然 方 程 
(4.12) 的 根 ， 关 于 样本 X 的 取 值 用 随机 数 产生 ， 
> x <- Tcauchy(1000 ,1) 
> f <- function(p) sum((x-p)/(1i+(x-p) “2)) 
> out <- uniroot(f, c(0, 5)) 
在 程序 中 ， 第 一 句 是 产生 1000 个 参数 9 = 1 的 随机 数 ， 第 二 句 写 出 似 然 方程 
(4.12) 对 应 的 函数 . 第 三 句 是 用 求 根 函数 uniroot () 求 似 然 方程 在 区 间 (0,5) 内 
的 根 ， 其 计算 结果 为 


> out 





$root 

[1] 1.049538 

$f .root 

[1] -0.006061751 
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$iter 
[1] 5 
$estim.prec 
[1] 6.103516e-05 
在 计算 结果 中 ，$root 是 方程 根 的 近似 解 , 即 估计 值 为 9 = 1.049538. $f .root 是 
函数 f 在 近似 值 处 的 函数 值 ，$iter 的 友 代 次 数 , 即 用 了 5 次 杰 代 . $estim.prec 
是 近似 解 与 精确 解 的 误差 估计 ， 即 近似 解 与 精确 解 误 差 的 绝对 值 不 超过 6.104 x 
10-5. 
函数 uniroot () 的 一 般 使 用 格式 为 
uniroot(f, interval, 
lower = min(interval), upper = max(interval), 
tol = .Machine$double.eps*0.25, maxiter = 1000, ...) 
其 中 f 是 所 求 方程 的 函数 。 interval 是 包含 有 方程 根 的 初始 区 间 . lower 是 
初始 区 间 的 左 端点 ， upper 是 初始 区 间 的 右 端 点 . tol 是 计算 精度 ， maxiter 
是 最 大 迭代 次 数 ( 缺 省 值 为 1000). 
前 面 讨论 的 是 如 何 用 R 软件 中 的 函数 求 ( 对 数 ) 似 然 方 程 的 根 ， 事实 上 ， 也 
可 以 直接 用 R 软件 中 的 函数 求 (对 数 ) 似 然 函 数 的 极 值 . 
及 软件 中 函数 optimize() (或 optimise()) 可 直接 求 一 维 变量 函数 的 极 小 
点 ， 这 里 用 它 求 对 数 似 然 函 数 (4.11) 的 极 值 点 ， 其 程序 如 下 
> loglike <- function(p) sum(log(1+(x-p) “2)) 
> out <- optimize(loglike, c(0, 5)) 
在 程序 中 ， 第 一 句 是 对 数 似 然 函数 (4.11) ( 略 去 浓 数 项 ， 由 于 求 极 小 ， 加 一 个 负 
号 ) 第 二 句 是 用 函数 optimize() 求 函 数 loglike 在 区 间 (0,5) 上 的 极 小 点 . 
其 计算 结果 为 
> out 
$minimum 
[1] 1.049513 
$objective 
[1] 1303.192 
在 计算 结果 中 ， $minimunm 是 极 小 点 的 近似 解 ， 即 估计 值 为 9 = 1.049513. 
$objective 是 目标 函数 在 近似 解 处 的 函数 值 . 
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与 求 似 然 方程 根 的 方法 比较 ,两 者 的 计算 结果 相差 不 大 . 事实 上 ， 求 似 然 方 
程 根 的 方法 可 能 更 准确 一 些 ,， 但 此 方法 需要 先 求 导数 ， 这 对 于 较为 复杂 的 函数 ， 
可 能 会 带 来 一 定 的 困难 . 

函数 optimize() (和 optimise()) 的 一 般 用 法 是 : 


optimize(f = , interval = ,， lower = min(interval), 








upper = max(interval), maximum = FALSE， 
tol = .Machine$double.eps*0.25, ...) 
optimise(f = , interval = ,， lower = min(interval), 
upper = max(interval), maximum = FALSE， 
tol = .Machine$double.eps*0.25, ...) 
其 中 f 是 求 极 小 的 目标 函数 . interval 是 包含 有 极 小 的 初始 区 间 . ”lower 是 
初始 区 间 的 左 端 点 ， upper 是 初始 区 间 的 右 端 点 . maximum 是 逻辑 变量 ， 如 果 
maximum = FALSE( 缺 省 值 ) 表示 求 函数 极 小 值 点 ， 否 则 (maximum = TRUE) 表示 
求 函 数 的 极 大 值 点 . tol 是 计算 精度 . 
当 未 知 参数 9 是 多 元 变量 时 ， 极 大 似 然 法 求解 的 数值 方法 要 适用 于 多 变量 
函数 . 例如 ， 可 以 用 Newton 法 ( 见 第 二 章 的 2.9.3 市 ) 求解 对 数 似 然 方 程 (4.10). 
也 可 以 用 R 软件 中 的 nlm() 函数 直接 求解 无 约束 问题 


min L(0;7) 或 min ln L(0; 27)， 


这 里 z 是 随机 变量 X 的 取 值 . 

为 了 了 解 nlm 淆 数 求 多 元 函数 极 小 的 方法 , 这 里 简单 介绍 如 何 用 函数 nlm() 
求 多 变量 函数 f(x) 的 极 小 值 点 ， 有 关 nlm() 函数 在 统计 中 的 使 用 ， 将 会 在 第 六 
章 的 6.7.2 节 中 有 关 非 线性 回归 的 计算 中 讲 到 . 

用 nlm() 函数 求 无 约束 优化 问题 

min f(x)= 100(x2 — 721) + (1— zi1) (4.13) 

的 极 小 点 ， 取 初始 点 zt0 = (一 1.2,1)7. 称 函 数 (4.13) 为 Rosenbrock 函数 ， 或 橡 
胶 函 数 . 

写 出 目标 函数 (程序 名 :”Rosenbrock .R)， 


obj<-function(x){ 
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f<-c(10*(x[2] -x[1] “2), 1-x[1]) 
sum(f“2) 
} 
将 函数 调 入 内 存 ， 再 调用 nlm() 函数 求解 
> source("Rosenbrock.R") 
> x0<-c(-1.2,1); nlm(obj,x0) 
其 中 x0 是 初始 值 ， 得 到 
$minimum 
[1] 3.973766e-12 
$estimate 
[1] 0.999998 0.999996 
$gradient 
[1] -6.539275e-07 3.335996e-07 
$code 
[1] 1 
$iterations 


[1] 23 


其 中 $minimum 是 函数 的 最 优 目标 值 ， 即 f* = 3.973766 x 10- .$estimate 是 
最 优点 的 估计 值 ， 即 x* = (0.999998, 0.999996)?，$gradient 是 在 最 优点 处 ( 佑 
计 值 ) 目标 函数 梯度 值 ， 即 Vf* = (一 6.539275 x 10- 7",3.335996 x 10-7)7. $code 
是 指标 ， 这 里 是 1, 表示 选 代 成 功 ， $iterations 是 渤 代 次 数 ， 这 里 是 23, 表示 
进行 了 23 次 移 代 ， 

实际 上 ， Rosenbrock 函数 的 最 优点 是 x* = (1,1)*,， 最 优 目 标 函 数值 为 
大 (的 二 于 

通过 上 述 分 析 和 相应 的 例子 ， 可 以 得 到 : 矩 法 的 优点 是 简单 ， 只 需 知道 总 体 
的 矩 ， 总 体 的 分 布 形 式 不 必 知 道 , 而 极 大 似 然 法 则 必须 知道 总 体 分 布 形式 ， 并且 
在 一 般 情 况 下 ， 似 然 方程 组 的 求解 较为 复杂 , 往往 需要 在 计算 机 上 通过 迭代 运算 
才能 计算 出 其 近似 解 . 

在 上 述 例 子 中 ,分 别 用 窍 法 和 极 大 似 然 法 对 正 态 分 布 和 均匀 分 布 的 参数 进 
行 估计 ,在 所 得 到 的 佑 计 中 ， 对 于 正 态 分 布 ， 两 种 方法 得 到 的 参数 估计 值 是 一 致 
的 ， 而 对 均匀 分 布 ， 两 种 方法 得 到 的 参数 估计 值 不 一 样 ， 对 某 种 参数 进行 估计 ， 
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究竟 哪 种 好 呢 ? 下面 给 出 佑 计量 的 优良 性 的 判别 准则 . 


4.2 估计 量 的 优 民 性 准则 


从 前 面 两 节 的 讨论 中 可 以 看 到 ， 对 总 体 中 同一 参数 0, 采用 不 同 的 估计 方法 
得 到 的 估计 量 9 可 能 是 一 样 的 ， 但 对 于 大 多 数 情 况 是 不 一 样 的 例如， 对 于 均匀 
分 布 Ula, 路 参数 佑 计 的 算法 与 极 大 似 然 法 佑 计 的 结果 是 不 同 的 ， 究 竞 如 何 选 择 
“ 较 好 ”的 佑 计量 呢 ? 即 如 何 评 价 估计 量 的 优 劣 ? 这 里 简单 介绍 评价 佑 计量 优 劣 
的 准则 一 估计 量 的 无 偏 性 、 有 效 性 和 相合 性 (一 致 性 ). 


4.2.1 无 偏 估计 


估计 量 是 随机 变量 ， 对 于 不 同 的 样本 值 就 会 得 到 不 同 的 估计 值 . 这 样 ， 要 确 
定 一 个 估计 量 的 好 坏 ， 就 不 能 仅仅 依据 某 次 抽样 的 结果 来 衡量 ， 而 必须 由 多 次 抽 
样 的 结果 来 衡量 . 对 此 ， 一 个 自然 而 基本 的 衡量 标准 是 要 求 估计 量 无 系统 偏差， 
也 就 是 说 ， 尽 管 在 一 次 抽样 申 得 到 的 估计 值 不 一 定 恰好 等 于 待 估 参 数 的 真 值 ， 但 
在 大 量 重复 抽样 (样本 容量 相同 ) 时 ， 所 得 到 的 估计 值 平 均 起 来 应 与 待 估 参 数 的 
真 值 相同 ， 换 句 话说 ， 希 望 估计 量 的 数学 期 望 应 等 于 未 知 参 数 的 真 值 ， 这 就 是 所 
谓 无 偏 性 的 要 求 . 这 一 直观 要 求 用 概率 语言 描述 就 是 以 下 定义 . 
定义 4.3 设 久 是 总 休 ，09 €E 日 是 包含 在 总 体 X 的 分 布 中 的 待 佑 参数 ，X1, Xo， 
.…， XX 是 来 自 总 休 X 的 一 个 样本 . 若 估 计量 9 二 (Xi Xo,:……, Xi) 的 数学 期 
望 刀 ( 胃 存在 ， 且 对 于 任意 0c 日 有 





E(0) = 0, (4.14) 


则 称 0 是 9 的 无 偏 估计 量 或 无 偏 估计 (unbiased estimate). 

称 (0) 一 9 为 以 6 作为 9 的 估计 的 系统 误差 或 偏差 .无 偏 估计 的 实际 意义 
就 是 无 系统 误差 . 

若 (0) -9 关 0, 但 当 样本 容量 n 一 co 时 ， 有 


lim [E00) a g| < (4.15) 


则 称 0 为 9 的 渐 近 无 偏 估计 . 
一 个 佑 计量 如 果 不 是 无 偏 的 ， 则 称 它 是 有 偏 佑 计量 . 
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例 4.11 设 总 体 X 的 开 人 点 矩 x 二 忆 (X*)(k 过 1) 存在 ， Xi X2…Xn 是 
X 的 一 个 样本 ， Ak 二 一 二 > Mt 为 样本 的 上 价 原 点 | 证 明 : 无 论 总 体 X 服 


从 什么 分 布 ， 则 天 阶 样本 原 \ 开 4 是 天 阶 总 体 原 点 矩 ak 的 无 偏 估计 . 
证 明 : 设 X1, A2， 下 An 与 入 同 分 布 且 相互 独立 ， 故 有 


BX ) (XS i= 1,2,.…,Nn, 
即 有 


一 瑟 (3 二 1 ac = 


特别 地 , 不 论 总 体 X 服从 什么 分 布 ， 只 要 数学 期 望 存在, 必 有 EE(X) = 
即 关 是 4 的 无 偏 估计 . 
例 4.12 设 总 体 X 的 均值 几 、 方 差 0 存在 ，L,0” 为 未 知 参数 ， 则 oa” 的 估计 量 


2 ly xT) 
人 二 x) 


是 有 偏 估计 量 
证 明 : 由 于 


人 
BE(H7) 一 古 (3 (人 二 -DE (X?) 一 和 





和 
E(Xi?) = Var(Xi)+[E(Xi)] =0 +p, 
E(X) = Var(X)+ [EB(X)] = Ct a 
则 得 到 
0? 一 1 
B60) -ete (+e)- 02 #07. 


所 以 6° 是 有 偏 的 ， 若 用 9” 去 估计 o”, 则 估计 值 平均 偏 小 ， 但 它 是 o? 的 渐 近 无 
偏 估计 . 
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对 于 样本 方差 ， 有 
2 1 _T 7 ~2 
J 和 = 
BO) = Bg 
nl ~ nl n Ny 








这 就 是 说 ， 样 本 方差 5? 是 总 体 方差 o? 的 无 偏 估计 . 故 一 般 都 采用 5S* 作为 总 体 
方差 o” 的 估计 量 . 





4.2.2 ”有效 性 


在 许多 情况 下 ， 总 体 参 数 9 的 无 偏 估计 量 不 是 惟一 的 . 那么 ， 如 何 衡量 一 个 
参数 的 两 个 无 偏 估计 量 何者 更 好 呢 ? 一 个 重要 标准 就 是 观察 它们 谁 的 取 值 更 集 
中 于 待 估计 参数 的 真 值 附 近 ,， 即 哪 一 个 佑 计量 的 方差 更 小 . 这 就 是 下 面 的 有 效 性 
定义 4.4 设 太 = 页 RD) 与 2 二 02(X1,X2,…,XXn) 都 是 0 的 无 仿 
估计 ， 若 

Var(01) < Var(0,), 
则 称 1 比 b 有 效 ， 

考察 0 的 所 有 无 偏 估计 量 ， 如 果 其 中 存在 一 个 估计 量 b 的 方差 最 小 ， 则 此 
佑 计量 应 当 最 好 , 并 称 此 估计 量 bm 为 9 的 最 小 方差 无 偏 佑 计 (minimum variance 
unbiased estimate). 

可 以 证 明 , 对 于 正 态 总 体 N(1,0?), (XX,5?) 是 (4,07) 的 最 小 方差 无 偏 估计 . 

有 效 性 的 意义 是 ， 用 0 估计 9 时 ， 除 无 系统 偏差 外 ， 还 要 求 估计 精度 更 高 . 
例 4.13 设 总 体 站 的 均值 J 和 方差 9” 存在 ， XX1,X2,……，Xn 是 来 自 总 体 六 
的 一 个 样本 ,证明 舍 计 时 ， 抽 = 和 = 1 2 eX 有 效 ， 其 中 








n 
> ,ci 一]1， ci > 0,7= 1,2,.…,n. 
?一 1 


解 : 容易 验证 ， (fa) = B(fi2) = 4, 都 是 4 的 无 偏 估 计 ， 计算 方差 得 到 


EE 0o2 
Var(fi1) = Var(X)= 


Var(fi2) = Var oj = BD (dVar(Xi)) = 0° 2 


i=1 
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由 不 等 式 要 < "Do 得 到 
记 1 
Var(M1) = 一 = 一 一 元 (> 中 <o? > c = Var(fi2), 


故 如 比 2 有 效 . 
4.2.3 ”相合 性 (一 致 性 ) 


估计 量 2 的 无 偏 性 和 有 效 性 都 是 在 样本 容量 ”固定 的 情况 下 讨论 的 . 然而 ， 
由 于 估计 量 0(X1, X2,.…,X,) 依赖 于 样本 容量 n, 自然 会 想到 ， 一 个 好 的 估计 量 
0, 当 样本 容量 n 越 大 时 ， 由 于 关于 总 体 的 信息 也 随 之 增加 ， 该 估计 理应 越 精确 
越 可 靠 ， 特 别 是 当 n 一 ce 时， 估计 值 将 与 参数 真 值 几乎 完全 一 致 ， 这 就 是 估计 
量 的 相合 性 (或 称 为 一 致 性 )， 相 合 性 的 严格 定义 如 下 : 
定义 4.5 设 0(X1, Xo,…, Xi) 为 未 知 参数 9 的 估计 量 ， 若 对 于 任意 0 < 日 , 当 
nn 一 00 时 ， 0(X1, X2 和) 依 概率 收敛 于 0, 即 对 任意 6。 > 0, 有 











lim P{|06—0| <e}=1, 


则 称 0 为 0 的 相 会 估计 (consistent estimate) 量 或 一 致 佑 计量， 并 记 为 6 2 
0(7 一 00). 


若 当 n -oo 时， 人均 方 收 化 于 09, 即 


lim E(0 — 0)?= 


N00 


则 称 6 为 的 均 方 相合 估计 量 [或 一 致 估计 量 ) 并 记 为 6 三 , 0(n 一 00). 


4.3 区 间 估 计 


前 面 介绍 的 点 估计 方法 是 针对 总 体 的 某 一 末 知 参数 0, 构造 的 一 个 估计 量 
0(X1, XX2,… ,Xn), 对 于 某 次 抽样 的 结果 ， 即 一 个 样本 观察 值 (zt za …,zn), 可 
用 估计 bzi x2,…, zn) 作为 9 的 一 个 近似 值 ， 即 认为 6(z1, zz,zn) 交 0. 但 
是 ， 人 们 要 问 这 种 估计 的 精确 性 如 何 ? 可 信 程 度 如 何 ? 点 估计 无 法 回答 这 些 问 
题 ， 为 了 解决 这 些 间 题 ， 需 要 讨论 参数 的 区 间 估 计 . 
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定义 4.6 设 总 体 X 的 分 布 函数 下 (7;9) 含 未 知 参数 0， 对 于 给 定 值 a (0 < 
Q < 1), 若 由 样本 Xi，X2，….，Xn 确定 的 两 个 统计 量 01 (XI1,X2,…， Xn) 和 


入 


0o(X1, Xo,:*:, Xn) 满足 
P {OCX Xo, be ,XX)} 生计 部 (4.16) 


则 称 随机 区 间 (bi,b2) 是 参数 9 的 置信 度 为 1 一 a 的 置信 区 间 (confidence inter- 
val), 01 和 0 分 别称 为 置信 度 为 1 一 a 的 双 侧 置信 区 间 的 置信 下 限 与 置信 上 限 ， 
称 1 一 a 为 置信 和 度 或 置信 系数 . 

置信 区 间 (1, 0) 是 一 个 随机 区 间 ， 对 每 次 的 抽样 来 说 ， 往 往 有 所 不 同 ， 并 
有 时 包含 了 参数 4 有 时 不 包含 9. 但 是 ， 此 区 间 包 含 9 的 可 能 性 (置信 和 度 ) 是 
1 一 a. 显然 ,在 置信 度 一 定 的 前 提 下 置信 区 间 的 长 度 越 得， 其 精度 越 高 ， 佑 计 也 
就 越 好 ， 在 实用 中 ， 通 常 给 定 一 定 的 置信 和 度 ， 求 尽 可 能 短 的 置信 区 间 . 


4.3.1 一 个 正 态 总 体 的 情况 

假设 正 态 总 体 X ~ No Xi1, XX2,… ,Xn 为 来 自 总 体 X 的 一 个 样本 ， 
1 一 a 为 置信 度 ， X 为 样本 均值 ， 5? 为 样本 方差 . 

1. 均值 / 的 区 间 估 计 

分 别 讨论 总 体 X 的 方差 o? 已 知 和 方差 o* 未 知 两 种 情形 . 

当 o? 已 知 时 ， 由 于 


Xkh 





HAR ~ NG0D， (4.17) 
因此 有 
及 一 内 办 
Pp 了 7 万 < Zp} =1 ， (4.18) 








其 中 Zu 为 标准 正 态 分 布 N(0,1) 上 的 a 分 位 点 ， 即 @(Zu) = 1 一 Qa. 由 式 (4.18) 
得 到 关于 均值 凡 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 


= (ea 一 一 (oa 
a 4.19 


当 o 未 知 时 ， 由 于 








GO/V7 入 一 
Pe We Ch ~ tn — 1), (4.20) 
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"| 5] 
其 中 如 (n 一 1) 表示 自由 度 为 n 一 1 的 为 1 分 布 上 a 分 位 点 ,由 式 (4.21) 得 到 
关于 均值 ,置信 度 为 1 一 a 的 双 侧 置信 区 间 











< oo =1—a, (4.21) 


局 = -op 一 1])， 环 十 -ol = y | (4.22) 
根据 公式 (4.19) 和 公式 (4.22) 写 出 总 体 方差 已 知 和 方差 未 知 两 种 情况 均值 
4 区间 估 计 的 R 程序 (程序 名 : ”interval_estimatel.R ). 
interval_estimate1l<-function(x, sigma=-1, alpha=0.05)+ 
n<-length(x); xb<-mean(x) 
if (sigma>=0){ 
tmp<-sigma/sqrt (n)*qnorm(1-alpha/2); df<-n 
} 
elset 
tmp<-sd(x)/sqrt (n)*qt(1-alpha/2,n-1); df<-n-1 
} 
data.frame (mean=xb, df=df, a=xb-tmp, b=xb+tmp) 
} 
在 程序 中 ，x 是 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 . sigma 是 总 体 的 标准 
差 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 正 态 分 布 计算 区 间 端 点 ， 当 标准 
差 未 知 时 ,输入 项 可 缺 省 ， 程 序 采 用 二 分 布 计算 区 间 端 点 . alpha 是 显著 性 水 
平 ， 缺 省 值 为 0.05. 函数 以 数据 框 的 形式 输出 ， 输 出 的 内 容 有 :样本 均值 mean,， 
自由 度 df 和 均值 区 间 佑 计 的 上 下 限 a,b. 
注意 :在 R 软件 中 ， 所 有 的 分 位 点 均 是 按 下 分 位 点 计算 的 ， 而 本 书 中 的 数 
学 表达 式 所 使 用 的 分 位 点 均 是 上 分 位 点 ， 因 此 数学 表达 式 与 R 软件 中 的 函数 有 
如 下 关系 





Za = qnorm(1-alpha), ta(n—1)= qt(i-alpha, n-1). 
其 他 分 布 函数 也 相同 ， 请 注意 两 者 的 差别 ， 在 编程 中 不 要 混 消 . 
在 得 到 观测 数据 后 ， 可 以 用 此 函数 对 参数 / 作 区 间 佑 计 . 
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例 4.14 某 工厂 生产 的 零件 长 度 和 被 认为 服从 N(1,0.04), 现 从 该 产品 中 随机 机 
取 6 个 ， 其 长 度 的 测量 值 如 下 (单位 : 毫米 ) 

14.6, 15.1, 14.9, 14.8, 15.2, 15.1, 
试 求 该 零件 长 度 的 置信 系数 为 0.95 的 区 间 估 计 . 

解 : 输入 数据 ， 调 用 函数 interval_estimatel()( 程 序 名 :exam0414.B) 
X<-c(14.6，15.1,14.9，14.8，15.2，15.1) 
source("interval_estimate.R'") 
interval_estimate(X, sigma=0.2) 

得 到 
mean df a b 
1 14.95 6 14.78997 15.11003 
因此 ， 该 零件 长 度 的 置信 系数 为 0.95 的 置信 区 间 为 [14.79, 15.11]. 

例 4.15 为 估计 一 件 物 体 的 重量 1, 将 其 称 了 10 次 ,得 到 的 重量 ( 单位， 千克 ) 
为 
10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3, 9.9, 
假设 所 称 出 的 物体 重量 服从 N(J,0”), 求 该 物体 / 置信 系数 为 0.95 的 置信 区 

间 . 

解 : 输入 数据 ， 调 用 函数 interval_estimate1() (程序 和 名: ”exam0415.R) 
X<-c(10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3,9.9) 
source("interval_estimate.R'") 
interval_estimate(X) 

得 到 
mean df a b 
1 10.05 9 9.877225 10.22278 
因此 ， 该 物体 1 置信 系数 为 0.95 置信 区 间 为 [9.87, 10.22]. 
R 软件 中 的 t.test 检验 函数 可 以 完成 相应 的 区 间 佑 计 工 作 ， 例 如 
> t.test(X) 
One Sample t-test 
data: XX 
t = 131.5854, df = 9, p-value = 4.296e-16 
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alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
9.877225 10.222775 
sample estimates: 
mean of x 
10.05 

得 到 相应 的 区 间 估 计 [9.88, 10.22| 和 其 它 的 一 些 信息 .注意 到 : 由 t.test() 桥 
数 得 到 的 区 间 估 计 与 我 们 编写 函数 得 到 的 区 间 佑 计 是 相同 的 , 从 这 里 可 以 帮助 大 
家 了 解 t.test() 的 计算 过 程 . 关于 t.test() 函数 进一步 的 使 用 方法 将 在 下 一 


章 介绍 . 
2. 方差 ”的 区 间 估 计 


分 别 讨论 总 体 X 均值 4 已 知 和 均值 k 未 知 两 种 情形 . 
当 h 是 已 知 时 ， 用 0? 的 极 大 似 然 估计 








We 
人 (4.23) 
站 


来 导出 o? 的 置信 区 间 . 由 > 分 布 的 定义 容易 推出 


ey Nn 
= DR ~ xn). (4.24) 
i=1 
因此 有 
Pit) < Sa) -1-0 (4.25) 





其 中 pm) 和 xX2js(n) 分 别 表示 自由 度 为 的 为 x? 一 分布 上 1 一 a/2 和 a/2 
分 位 点 ， 由 此 得 到 o? 的 置信 度 为 1 一 a 的 双 侧 置信 区 间 


2 2 (4.26) 


Xaaln) X1_a2(n) 
当 是 未 知 时 ， 0? 的 极 大 似 然 估 计 
六 = > (Xi — x) 


一 放 
i=1 
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是 满足 
Ce a (4.27) 





0 


因此 ， 有 


nm1)s? 
Piont -ds EB xa Dd} -1-e 





其 中 x_n 一 1 和 忆 s(n 一 1) 分 别 表示 自由 度 为 nn 一 1 的 为 一 分 布 上 
1 a/2 和 a/2 分 位 点 ， 由 此 得 到 0? 的 置信 度 为 1 ~ a 的 双 侧 置信 区 间 


Re | 


|、 (4.28) 
X= 1) > 1) 


根据 公式 (4.26) 和 公式 (4.28) 写 出 总 体 均 值 已 知 和 均值 未 知 两 种 情况 方差 
02 区 间 估 计 的 R 程序 (程序 名 : interval_var1.R ) 

interval_vari<-function(x, mu=Inf, alpha=0.05){ 

n<-length (x) 
if (mu<Inf){ 

S2 <- sum((x-mu) “2)/n; df <- n 
} 
elset{ 

S2 <- var(x); df <- n-1 
} 
a<-df*S2/qchisq(1-alpha/2 ,df) 
b<-df*S2/qchisq(alpha/2,df) 
data.frame (var=S2, df=df, a=a, b=b) 

} 

在 程序 中 ，x 是 由 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 . mu 是 总 体 均值 ， 当 
均值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 自由 度 为 n 的 x 一 分 布 计算 区 间 端 点 . 
当 均 值 未 知 时 ， 输 入 项 可 缺 省 ， 程 序 采 用 自由 度 为 n 一 1 的 x 一 分 布 计算 区 间 
端点 . 数据 输出 采用 数据 框 的 形式 ,输出 值 是 样本 方差 var, 自由 度 df 和 方差 的 
区 间 佑 计 a,b. 

例 4.16 用 区 闻 估 计 方 法 估计 例 4.15 的 测量 误差 ( 即 方差 922 )， 分 别 对 均值 / 
已 知 (1 二 10) 和 均值 J 未 知 两 种 情况 进行 讨论 . 
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解 , 用 上 面 编 好 的 函数 计算 ， 
#### 输入 数据 ， 调 用 编 好 的 程序 
> X<-c(10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9) 
> source("interval_var1.R") 
#### 作 方差 的 区 间 估 计 ， 认 为 均值 已 知 


> interval_var1(X，mu=10) 














Var df a b 
1 0.055 10 0.02685130 0.1693885 
#### 作 方 差 的 区 间 估计 ， 认 为 均值 未 知 
> interval_varl(X) 
var df a b 
1 0.05833333 9 0.02759851 0.1944164 
当 均 值 已 知 (4 = 10) 时 ， 其 方差 o? 的 区 间 估 计 为 [0.0268, 0.169], 当 均值 未 
知 时 ， 其 方差 o? 的 区 间 估 计 为 [0.0276, 0.194. 从 计算 结果 来 看 ， 在 均值 已 知 的 
情况 下 ， 计 算 结果 更 好 一 些 . 


4.3.2 ”两 个 正 态 总 体 的 情况 


假设 有 两 个 正 态 总 体 XX~ VOL aa 和 Yo~ N (12, 02), Xi1, 从 2， 人 Xn 
为 来 目 总 体 X 的 一 个 样本 ， 站 ,72,…, Yns 为 来 自 总 体 Y 的 一 个 样本 ， 1 一 a 
为 置信 和 度 ， 关 ,分别 为 第 一 、 第 二 样本 均值 ， .57, 53 分 别 为 第 一 、 第 二 样本 方 
差 . 
1. 均值 差 ji 一 jo 的 区 间 估 计 
分 三 种 情况 讨论 . 
(1) 当 两 总 体 的 方差 of, 2 已 知 时 ， 由 正 态 分 布 的 性 质 有 
ER 站 和 2 
XY- 了 ~ NW (mw 和 + 时)， (4.29) 
Nl1 N92 


类 似 于 单个 总 体 区 间 估 计 的 推导 ， 得 到 /ai 一 yw 的 置信 度 为 1 一 a 的 双 侧 置信 区 


间 : 
党 几 2 2 
Ra 2 rv a 
NnN1 no Nn Nn 
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(2) 当 两 总 体 的 方差 相同 ， 即 0? = 03 = o2, 且 未 知 时 ， 可 以 得 到 


pe a 
yn ek hes NE (4.31) 


/1 1 


(n1 — 1)S? + (no 一 1)93 
NL1 十 712 一 2 


仿照 式 (4.22) 的 推导 ， 得 到 1 一 /Ha 的 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 : 


| -Ytoa(m + na — 2)S 二 十 款 ， 
站 (4.33) 


XX—Y+ta(nit na — 2) 十 而 | 


Nn1 n2 


其 中 


(4.32) 


(3) 当 两 总 体 的 方差 of 和 03 未 知 ， 且 of 关 02 时 ， 可 以 证 明 


i 














T= 及- ee (4.34) 
近似 成 立 ， 其 中 

fa oN pf 00) (3 

“一 ( 业 + 于 1 0 
但 由 于 oo 未 知 ， 用 样本 方差 2, 52 似 来 近似 ， 因 此 ， 

ee (8 (3 

| Ee. 


可 以 近似 地 认为 
T ~ t(D). 


由 此 得 到 yj 一 /2 的 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 : 


wa i 
pt + 过， Y 一 XX+to(D) | (4.37) 


Nl NL2 Nl NL2 


根据 公式 (4.30) 、 公 式 (4.33) 和 公式 (4.37) 写 出 三 种 情况 下 均值 差 jw 一 Na 
区 间 估 计 的 R 程序 (程序 名 ”interval_estimate2.R ). 
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interval_estimate2<-function(x, y, 
sigma=c(-1,-1), var.equal=FALSE, alpha=0.05){ 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y) 
if (all(sigma>=0))+ 
tmp<-qnorm(1-alpha/2)*sqrt (sigma[1] “2/nitsigma[2] “2/n2) 
df<-ni+n2 
} 
elset 
if (var.equal == TRUE)T 
Sw<-((n1i-1)*var (x)+(n2-1)*var (y))/ (ni+n2-2) 
tmp<-sqrt (Sw* (1/n1i+1/n2))*qt (1-alpha/2,n1+n2-2) 
df<-n1i+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/ (n2-1)) 
tmp<-qt (1-alpha/2, nu)*sqrt (Si1/n1+S2/n2) 


df<-nu 


} 
data.frame (mean=xb-yb, df=df, a=xb-yb-tmp, b=xb-yb+tmp) 


在 程序 中 ， x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 . sigma 是 
由 两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采 用 正 态 
分 布 计算 区 间 的 端点 ， 当 标准 差 未 知 时 ， 输 入 项 可 缺 省 ， 此 时 需要 考虑 两 总 体 
的 方差 是 否 相 同 ， 若 认为 两 总 体 方差 相同 ， 输 入 var .equal = TRUE, 程序 采用 
自由 度 为 ni 十 nz 一 2 的 t=- 分布 计算 区 间 端 点 ; 若 认为 两 总 体 方差 不 同 ， 输 入 
var.equal = FALSE (或 缺 省 ), 程序 采用 自由 度 为 v 的 二 分 布 计算 区 间 端 点 . 
当 v 不 是 整数 时 ， 程 序 在 计算 三 分 布 时 ， 其 值 采 用 插值 方法 得 到 . 


程序 输出 采用 数据 框 的 形式 ,输出 两 样本 均值 差 mean, 自由 度 df, 和 均值 差 





4.3 区 间 估 计 217 


的 区 间 估 计 的 端点 a，b. 
例 4.17 欲 比较 甲 、 乙 两 种 棉花 品种 的 优 劣 ， 现 假设 用 它们 纺 出 的 棉纱 强度 分 别 
服从 N(j1,2.182) 和 N(na,1.762), 试验 者 从 这 两 种 棉纱 中 分 别 机 取样 本 XX1, Xz， 
Xi00 和 站 , Y2,*……, Yioo (其 数据 用 计算 机 随机 产生 ， 其 随机 数 的 均值 分 别 为 
M1 二 5.32, Ha 二 5.76). 试 给 出 Mi 一 Ha 的 置信 系数 为 0.95 的 区 间 舍 计 . 
解 : 首先 用 及 软件 产生 200 个 随机 数 ， 再 调用 函数 interval_estimate2() 
进行 计算 (程序 名 exam_0417.R)， 
X<-ITnorm(100，5.32，2.18) 
y<-rnorm(100, 5.76, 1.76) 
source("interval_estimate2.R") 
interval_estimate2(x,y, sigma=c(2.18, 1.76)) 
得 到 计算 结果 
mean df a b 
1 -0.2549302 200 -0.80407 0.2942096 
因此 ， Ja 一 Ha 的 置信 系数 为 0.95 的 区 间 估 计 为 [一 0.804, 0.294]. 
注意 ， 由 于 数据 是 由 计算 机 随机 产生 的 ， 因此， 每 一 次 的 计算 结果 是 不 相同 
的 ， 但 总 的 趋势 是 相同 的 . 
例 4.18 某 公司 利用 两 条 自动 化 流水 线 灌 装 矿泉 水 , 现 从 生产 线 上 随机 抽取 样本 
XX1,， XX2,…,， X12 和 站 了 2, .…, Yi7 (数据 由 计算 机 模拟 产生 )， 它 们 是 每 瓶 矿 泉 
水 的 体积 ( 写 升 )， 假设 这 两 条 流水 线 所 装 的 矿泉 水 的 体积 部 服从 正 态 分 布 ， 分 
别 为 N(j,0?) 和 NN(12,0?). 给 定 置信 系数 0.95 ， 试 求 向 一 j 的 区 闻 估 计 . 
讨论 两 种 情况 ， (1) 两 总 体 方差 相同 ; (2) 两 总 体 方差 不 同 . ( 注 : 计算 机 产生 
随机 数 的 均值 Mi = 501.1 和 2 = 499.7, 标准 差 ol = 2.4, oz = 二 4.7. ) 
解 : 首先 用 R 软件 产生 相应 的 随机 数 ， 再 调用 函数 interval_estimate2() 
进行 计算 (程序 名 : ”exam_0418.R). 
x<-rnorm(12, 501.1, 2.4) 
y<-rnorm(17, 499.7, 4.7) 


source("interval_estimate2.R") 





interval_estimate2(x, y, var.equal=TRUE) 


interval_estimate2(x, y) 


认为 方差 相同 的 计算 结果 是 
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> interval_estimate2(x, y, var.equal=TRUE) 
mean df a b 
1 -0.7120126 27 -3.667566 2.243541 
因此 ， 在 认为 方差 相同 的 情况 下 ， Hi 一 /2 的 置信 系数 为 0.95 的 区 间 佑 计 为 
[一 3.67, 2.24]. 
认为 方差 不 同 的 计算 结果 是 
> interval_estimate2(x, y) 
mean df a b 
1 -0.7120126 23.09151 -3.344401 1.920376 
因此 ， 在 认为 方差 不 同 的 情况 下 ， /1 一 J2 的 置信 系数 为 0.95 的 区 间 佑 计 为 
[一 3.34, 1.92]. 


两 计算 结果 作 比 较 ， 可 认为 在 两 总 体 方差 不 同 的 假设 下 ， 计 算 结果 更 精确 一 








ER 


在 这 两 个 例子 中 ， yi 一 /2 的 区 间 佑 计 包 含 了 零 ， 也 就 是 说 ， Hi 可 能 大 于 
/2, 也 可 能 小 于 /2, 这 时 我 们 就 认为 1 与 1a 并 没有 显著 差异 . 
R 软件 中 的 t+.test() 函数 可 以 给 出 双 样 本 差 的 区 间 估 计 ， 如 
> t.test(x, y) 
Welch Two Sample t-test 
data: x and y 
t = -0.5594, df = 23.092, p-value = 0.5813 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-3.344401 1.920376 
sample estimates: 
mean of x mean of y 
500.0234 500.7354 
由 于 没有 声明 ,在 计算 时 总 认为 两 样本 方差 是 不 同 的 . 如 果 认 为 方差 相同 ， 
需要 声明 ， 即 在 变量 中 给 出 var .equal=TRUE, 如 
> t.test(x, y, var.equal=TRUE) 
Two Sample t-test 
data: x and y 
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t = -0.4943, df = 27, p-value = 0.6251 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-3.667566 2.243541 
sample estimates: 
mean of x mean of y 
500.0234 500.7354 

比较 两 种 程序 的 计算 结果 ， 发 现 由 上 .test() 函数 得 到 的 计算 结果 与 我 们 编 
写 函 数 的 计算 结果 是 完全 相同 的 ， 绪 合 前 面 的 例子 ， 帮 助 我 们 理解 上 .test() 的 
函数 的 计算 过 程 ， 有关 t.test() 函数 的 其 他 用 法 ， 后 面 还 会 讨论 . 

2. 配对 数据 的 区 间 估 计 

因为 配对 数据 的 每 一 对 都 可 计算 其 差 值 4d, 所 以 ， 虽 然 配对 数据 是 两 组 数据 
间 的 比较 , 但 求 出 每 一 对 差 值 后 ,就 变 成 了 单个 样本 了 ， 其 置信 区 间 可 按 单个 总 
体 均 值 4 的 区 间 估 计 的 方法 求 出 ， 这 里 也 可 以 分 成 方差 cz 已 知 和 方差 04 未 知 
的 情况 来 讨论 . 由 于 前 面 对 单 个 总 体 样 本 均值 佑 计 讨论 的 比较 仔细 ,这 里 只 给 出 
其 应 用 方法 . 
例 4.19 为 了 调查 应 用 克 砂 平治 疗 砂 肺 的 效果 ， 今 柏 查 应 用 克 砂 平治 疗 砂 肺 的 患 
者 10 名， 记录 下 治疗 前 后 血红 有 蛋白 的 含量 数据 ， 如 表 4.1 所 示 .， 试 求治 疗 前 后 


表 4.1: 治疗 前 后 血红 蛋白 的 含量 数据 


1 2 3 4 5 6 7 8 9 10 
治疗 前 (X) | 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 


治疗 后 (Y) | 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 





变化 的 区 间 估 计 (a = 0.05). 
解 : 输入 数据 ， 调 入 t .test() 函数 . 
> X<-c(11.3, 15.0, 15.0, 13.5, 12.8, 10.0, 11.0, 12.0, 13.0，12.3) 
> Y<-c(14.0, 13.8, 14.0, 13.5, 13.5, 12.0, 14.7, 11.4, 13.8, 12.0) 
> t.test(X-Y) 
One Sample t-test 
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data: X-Y 
t = -1.3066, df = 9, p-value = 0.2237 
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
-1.8572881 0.4972881 
sample estimates: 
mean of x 


-0.68 
所 以 得 到 ， 治 疗 前 后 变化 的 区 间 佑 计 为 [一 1.86, 0.497]. 

由 于 0 包含 在 区 间 估 计 的 区 间 内 , 因此 可 以 认为 : 治疗 前 后 病人 血红 蛋白 的 
含量 无 显著 差异 . 关于 假设 检验 部 分 我 们 在 下 章 再 介绍 . 

3. 方差 比 of/03 的 区 间 估 计 

仍 分 总 体 均 值 jl 、 Ha 已 知 和 总 体 均 值 jy 、 Ha 未知 两 种 情况 讨论 . 

(1) pj 与 jw2 已 知 ， 此 时 








本 1 < 本 1 2 
01 = 一 》 (Xi— 1)’, 02 = 一 》 (下 一 jio) (4.38) 
1 记 1 /2 5 
分 别 为 of 和 02 的 最 小 无 偏 估计 ， 由 于 
2 2 
G1/o1 
ge mv F (ni1, n2), (4.39) 
03/02 
因此 
Gt/ot 
P Pi_a2(n1, n2) < 37 < Fo (n1, 12) 一 1 一 95 (4.40) 
02/03 


其 中 万 -oa(0a 2) 和 Fa(ni ma) 分 别 表示 自由 度 为 (m1,m2) 的 为 了 一 分 布 上 
1 一 Q/2 和 a/2 分 位 点 ， 因 此 ，o2/o2 的 置信 水 平 1 一 a 的 置信 区 间 为 
U3 9/3 
| | 
(2) 1 与 12 未 知 ， 此 时 5? 和 52 分 别 为 cl 和 03 的 最 小 无 偏 估计 ， 由 于 


_ H/o 
$2/03 





ot F(n = 1,n2 1), (4.42) 
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因此 
31/cl 
P Pi_a2(N1 一 172 一 了 ) < 52 5 < Fan1— 1,n2—1) = 工 一 0 (4.43) 
2/02 


则 o?/02 的 置信 水 平 1 一 a 的 置信 区 间 为 


2 / G2 2 / G2 
| 51/53 , S1/532 . (4.44) 
Fajaa —1,n2—1) Fa2(ni—1,n2—2) 


根据 公式 (4.41) 和 公式 (4.44) 写 出 上 述 两 种 情况 下 方差 比 of/o2 区 间 佑 计 
的 R 程序 (程序 名 : interval_var2.R ). 
interval_var2<-function(x,y, 
mu=c(Inf, Inf), alpha=0.05){ 
ni<-length(x); n2<-length(y) 
if (all(mu<Inf)){ 
Sx2<-1/ni*sum( (x-mu[1]) “2); Sy2<-1/n2*sum((y-mu[2]) “2) 
df1i<-ni; df2<-n2 
} 
elset 
Sx2<-var (x); Sy2<-var(y); dfi<-ni-1; df2<-n2-1 
} 
r<-Sx2/Sy2 
a<-r/gf (1-alpha/2,df1 ,df2) 
b<-r/qf (alpha/2,df1 ,df2) 
data.frame(rate=r, df1i=df1, df2=df2,a=a, b=b) 
} 
在 程序 中 ，x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 .， mu 是 由 两 
总 体 均 值 构成 的 向 量 , 当 均 值 已 知 时 , 输入 相应 的 值 , 程序 采用 自由 度 为 (n1, m2) 
的 FF- 分 布 计算 区 间 估 计 的 两 个 端点 ;否则 (输入 值 缺 省 )， 程 序 采用 自由 度 为 
(ni1 一 1,n2 一 1) 的 一 分布 计算 区 间 估 计 的 两 个 端点 alpha 是 显著 性 水 平 ， 缺 
省 值 为 0.05. 输出 采用 数据 框 形式 ， 输 出 的 变量 有 样本 方差 比 rate, 第 一 自由 
度 df1, 第 二 自由 度 df2, 和 方差 比 的 区 间 佑 计 的 端点 a，Pb. 
例 4.20 已 知 两 组 数据 
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A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
试用 两 种 方法 作 方 差 比 的 区 间 舍 计 . (1) 均值 已 知 HL 二 Ha 二 80; (2) 均值 未 
知 . 
解 : 输入 数据 , 调用 隆 数 interval_var2() 进行 计算 (程序 名 : exam0419.R). 
#### 用 scan() 函数 输入 数据 
> A<-scan() 
1: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
9: 80.05 80.03 80.02 80.00 80.02 
14: 
Read 13 items 














> B<-scan() 

1: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 

9: 

Read 8 items 

#### 调用 编 好 的 程序 

> source("interval_var2.R") 

#### 方差 比 的 区 间 佑 计 ， 认 为 均值 已 知 

> interval_var2(A, B, mu=c(80,80)) 
rate df1i df2 a b 

1 0.7326007 13 8 0.1760141 2.482042 

#### 方差 比 的 区 间 人 估计， 认为 均值 未 知 


> interval_var2(A, B) 


rate df1i df2 a b 
1 0.5837405 12 7 0.1251097 2.105269 
两 种 计算 结果 稍 有 差异 . 


从 计算 结果 可 以 看 到 ，1 包含 在 区 间 估 计 的 区 间 中 ,也 就 是 说 ， 有 理由 认为 
两 总 体 的 方差 比 为 1, 即 可 认为 两 总 体 的 的 方差 是 相同 的 . 
在 R 软件 中 ，var.test() 函数 能 够 提供 双 样 本 方差 比 的 区 间 估 计 ， 如 
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> Var.test(A,B) 
F test to compare two variances 
data: A and B 
F = 0.5837, num df = 12, denom df = 7, p-value = 0.3938 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.1251097 2.1052687 
sample estimates: 
ratio of variances 
0.5837405 

与 我 们 所 编写 函数 的 计算 结果 相同 (均值 未 知 ), 从 这 里 也 可 以 帮助 我 们 理解 函数 
var .test() 的 计算 过 程 . 有 关 var.test() 函数 的 其 他 用 法 ， 后 面 的 内 容 中 还 
会 进行 讨论 . 
4.3.3 ” 非 正 态 总 体 的 区 间 估 计 

当 数 据 不 服从 正 态 分 布 时 , 佑 计 均 值 的 一 种 有 效 的 方法 就 是 所 谓 的 大 样本 方 
法 ， 即 要 求 样 本 的 量 比较 大 ， 利 用 中 心 极限 定理 进行 分 析 . 


设 总 体 X 均值 为 1, 方差 为 o”, Xi1,X2,.…, Xn 为 抽 自 总 体 X 的 一 个 样本 . 
因为 这 些 样本 是 独立 同 分 布 的 ， 根 据 中 心 极限 定理 ， 对 于 充分 大 的 n, 有 


Xi— nn 
i=1 
近似 成 立 ， 这 样 就 导出 4 的 置信 和 度 为 1 一 a 的 双 侧 近似 置信 区 间 
医 本 A 让 三 2 , (4.45) 





在 形式 上 ， 该 式 与 式 (4.19) 完全 相同 ， 所 不 同 的 是 这 里 的 置信 系数 是 近似 的 . 
如 果 方 差 "” 是 未 知 的 ， 可 以 用 它 的 估计 3S” 来 代替 o”, 由 此 得 到 相应 的 近 
似 置信 区 间 


Zaj2， X 十 Za2 . 





= S 
局 二 万 (4.46) 
根据 公式 (4.45) 和 公式 (4.46) 写 出 非 正 态 总 体 区 间 佑 计 的 R 程序 (程序 


名: interval_estimate3.R ). 
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interval_estimate3<-function(x,sigma=-1,alpha=0.05){ 
n<-length(x); xb<-mean(x) 
if (sigma>=0) 
tmp<-sigma/sqrt (n)*qnorm(1-alpha/2) 
else 
tmp<-sd(x)/sqrt (n)*qnorm(1-alpha/2) 
data.frame (mean=xb, a=xb-tmp, b=xb+tmp) 

} 

在 程序 中 ，x 是 来 自 非 正 态 分 布 总 体 的 数据 (样本 ) 向 量 ， sigma 是 总 体 标 
准 差 , 当 标准 差 已 知 时 , 输入 相应 的 标准 差 ; 当 标准 差 未 知 时 , 输入 项 缺 省 , 程序 
用 样本 的 标准 差 代 蔡 总 体 的 标准 差 . 输出 采用 数据 框 形式 ， 输 出 样本 均值 mean， 
均值 的 区 间 佑 计 的 两 个 端点 a,b. 

例 4.21 某 公 司 欲 估计 自己 生产 的 电池 寿命 现 从 其 产品 中 随机 机 取 50 只 电池 
做 寿命 试验 (数据 由 计算 机 随机 产生 , 服从 均值 1/ 入 = 2.266 (单位 ，100 小 时 ) 
的 指数 分 布 )， 求 该 公司 生产 的 电池 平均 寿命 的 置信 系数 为 95% 的 置信 区 间 . 
解 : 首先 用 R 软件 产生 相应 的 随机 数 ， 再 调用 函数 interval_estimate3() 
进行 计算 . 
> x<-rexp(50, 1/2.266) 
> source("interval_estimate3.R") 
> interval_estimate3(x) 
mean a b 


1 2.293804 1.612363 2.975244 
因此 ， 该 公司 电池 的 平均 寿命 的 置信 系数 约 为 95% 的 置信 区 间 为 [1.612, 2.975]. 





4.3.4 ” 单 侧 置 信 区 间 估 计 


对 于 某 些 问题 ， 人 们 只 关心 9 在 某 一 方向 上 的 界限 . 例如 ， 对 于 设备 、 元 件 
的 寿命 来 说 ， 我 们 常常 关心 的 是 平均 寿命 9 的 “下 限 ?， 而 当 我 们 考虑 产品 的 废 
品 率 p 时 ， 关 心 的 是 参数 p 的 “上 界 ?.， 称 这 类 区 间 佑 计 问 题 为 单 侧 区 间 佑 计 . 
定义 4.7 设 XiX2…,Xn 是 来 自 总 体 六 的 一 个 样本 ，0 是 包含 在 总 体 分 布 中 
的 未 知 参数 ， 对 于 给 定 的 a(0 < a <1), 车 统计 量 0 二 0(X1, 义 2,……,X) 满足 





P {0(Xi1, XXXn) <0}=1—a, 
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则 称 随机 区 间 [8， 十 00) 是 0 的 置信 和 度 为 1 一 Qa 的 单 侧 置信 区 间 ， 称 和 为 0 的 
置信 和 度 为 1 一 a 的 单 侧 置信 下 限 . 车 统 计量 6 二 0(X1, 2,……, Xn) 满足 


P{9< OXi, = 一 oa， 

则 称 随机 区 间 (一 co, 由 是 0 的 置信 度 为 1 一 Q 的 单 侧 置 信 区 间 ， 称 0 为 0 的 置 
信 度 为 1 一 a 的 单 侧 置信 上 限 ， 

类 似 于 双 侧 置信 区 间 佑 计 的 研究 ， 对 于 给 定 的 置信 和 度 1 一 a, 选择 置信 下 限 
9 时 ， 应 是 (9) 越 大 越 好 ， 而 选择 置信 上 限 0 时 ， 应 是 (0) 越 小 越 好 . 

1. 一 个 总 体 求 均值 

假设 正 态 总 体 及 人 ~ N(h, 02)， X1, 入 2， 7 en 为 来 自 总 体 X 的 一 个 样本 ， 
1 一 a 为 置信 和 度 ， X 为 样本 均值 ， 5? 为 样本 方差 . 

分 别 讨论 总 体 均值 c” 已 知 和 未 知情 况 下 ， 均 值 的 单 侧 置 信 区 间 佑 计 . 

车 0 已 知 ， 由 式 (4.17), 得 到 


P {TA P{-z< TE}=1-0 
是 得 到 / 的 置信 和 度 为 1 一 a 的 单 侧 置 信 区 间 





四 [ea 一 一 0O 
x 3 7 二 = (-= 及 十 < (4.47) 
因此 ， 的 置信 度 为 1- a 的 单 侧 置 信 下 限 、 上 限 分 别 为 
二 [ea a 一 一 0O 
用 三 扩 一 -万 4， 有 二 六 十 i (4.48) 


若 0” 未 知 ， 由 式 (4.20), 得 到 


tnd) 1- P {mn- dH 








ab 
是 得 到 / 的 置信 和 度 为 1 - a 的 单 侧 置信 区 间 


和 A 一 1), 十 oj (-= 及 十 Le 0 . (4.49) 
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因此 ， 的 置信 和 度 为 1 一 a 的 单 侧 置 信 下 限 、 上 限 分 别 为 


&- 了 -nl) 五 一 叉 十 nl) (4.50) 
根据 公式 (4.47) 和 公式 (4.49), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 : ”interval_estimate4.R )， 并 可 控制 求 上 、 下 置信 区 间或 双 侧 置信 
区 间 . 
interval_estimate4<-function(x, sigma=-1, side=0, alpha=0.05){ 
n<-length(x); xb<-mean(x) 
if (sigma>=0){ 
if (side<0) 
tmp<-sigma/sqrt (n)*qnorm(1-alpha) 
a <- -Inf; b <- Xb+tmp 
} 
else if (side>0){ 
tmp<-sigma/sqrt (n)*qnorm(1-alpha) 
a <- xb-tmp; b <- Inf 


上 
elset 
tmp <- sigma/sqrt(n)*qnorm(1-alpha/2) 
a <- xb-tmp; b <- xb+tmp 
} 
df<-n 
} 
elset 


if (side<0){ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1) 
a <- -Inf; b <- Xb+tmp 

} 

else if (side>0)T{ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1) 
a <- xb-tmp; b <- Inf 
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} 
elset{ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha/2,n-1) 
a <- xb-tmp; b <- xb+tmp 
} 
df<-n-1 
} 
data.frame (mean=xb, df=df , a=a, b=b) 

} 

在 程序 中 ，x 是 由 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 ， sigma 是 总 体 的 标 
准 差 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 正 态 分 布 估计 区 间 端 点 ; 否则 
(输入 项 缺 省 ), 程序 采用 三 分 布 估 计 区 间 端 点 . ”side 是 控制 求 置信 区 间 上 下 
限 ， 若 求 置信 区 间 上 限 ， 输 入 side=-1; 若 求 置信 区 间 下 限 ， 输 入 side=1; 知 求 
双 侧 置信 区 间 , 输入 side=0 或 缺 省 . 输出 采用 数据 框 形式 , 输出 样本 均值 mean， 
自由 度 df, 和 均值 的 区 间 估 计 的 两 个 端点 a,b. 

上 述 程序 实际 上 包含 了 求 双 侧 置信 区 间 的 情况 ， 也 就 是 说 ， 函 数 interval 
_estimate4 包含 了 函数 interval_estimatel 的 功能 . 

例 4.22 从 一 批 灯泡 中 随机 地 取 5 只 作 寿 命 试验 ， 测 得 寿命 ( 以 小 时 计 ) 为 
1050, 1100, 1120, 1250, 1280. 
设 灯 泡 寿命 服从 正 态 分布 , 求 灯泡 寿命 平均 值 的 置信 度 为 0.95 的 单 侧 置信 下 限 . 

解 : 输入 数据 ， 调 用 聘 数 interval_estimate4() 

> X<-c(1050，1100，1120，1250，1280) 


> source("interval_estimate4.R'") 








> interval_estimate4(X, side=1) 
mean df a b 
1 1160 4 1064.900 Inf 
也 就 是 说 有 95% 的 灯泡 寿命 在 1064.9 小 时 以 上 . 
R 软件 中 的 t.test() 函数 也 可 以 完成 单 侧 区 间 佑 计 ， 如 
> t.test(X, alternative = "greater'") 


One Sample t-test 
data: X 
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t = 26.0035, df = 4, p-value = 6.497e-06 
alternative hypothesis: true mean is greater than 0 
95 percent confidence interval: 

1064.900 Inf 
sample estimates: 
mean of x 


1160 
相应 的 区 间 佑 计 为 [1064.900, oo0], 与 我 们 编写 函数 具有 相同 的 计算 结果 . 


在 程序 中 ， alternative 是 指 备 择 假 设 ， 这 个 概念 将 在 下 一 章 假设 检验 中 
作 详 细 介 绍 . 


2. 一 个 总 体 求 方差 


假设 与 前 面相 同 ， 9° 是 由 式 (4.23) 定义 ,分别 讨论 总 体 均值 y 已 知 、 未 知 
的 情况 ,方差 o? 的 单 侧 置信 区 间 估 计 . 
当 是 已 知 时 ， 由 式 (4.24), 有 


no no 
P{ 且 < 站 -1-= Pf < 1- 


是 得 到 o? 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 














ne nde? 
Ry 1) bb Bl Cy 
02 的 置信 和 度 为 1 一 a 的 单 侧 置信 下 、 上 限 为 
nde? 五 no 
2 a 0 


当 是 未 知 时 ， 由 式 (4.27), 有 
ee 区 (nD)) 汪汪 各 ; Ps “| 二 


CT 02 








是 得 到 o? 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 
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o? 的 置信 和 度 为 1 一 a 的 单 侧 置 信 下 、 上 限 为 
2 (nC—1)5? 2 (nC— 1)S? 


Am) ”am 0 


根据 公式 (4.51) 和 公式 (4.54), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 : interval_var3.R )， 并 可 控制 求 上 置信 区 间 、 双 侧 置 信 区 间 . 
interval_var3<-function(x,mu=Inf ,side=0,alpha=0.05)1{ 
n<-length (x) 
if (mu<Inf){ 
S2<-sum( (x-mu) “2)/n; df<-n 
} 
elset{ 
S2<-var(x); df<-n-1 
} 
if (side<0){ 
a <-0 
b <- df*S2/qchisq(alpha,df) 
} 
else if (side>0){ 
a <- df*S2/gqchisq(1-alpha, df) 
b <- Inf 
} 
elset{ 
a<-df*S2/qchisq(1-alpha/2, df) 
b<-df*S2/qchisq(alpha/2,df) 
} 
data.frame (var=S2, df=df, a=a, b=b) 

} 

在 程序 中 ，x 是 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 ， mu 是 总 体 均值 ， 当 均 
值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采 用 自由 度 为 n 的 x 一 分布 计算 区 间 端 点 ， 当 
均值 未 知 时 ， 输 入 项 可 缺 省 ， 程 序 采用 自由 度 为 n 一 1 的 x 一 分 布 计算 区 间 端 
点 ， side 是 控制 求 置信 区 间 上 下 限 , 若 求 置信 区 间 上 限 , 输入 side=-1; 若 求 置 
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信 区 间 下 限 ， 输 入 side=1; 知 求 双 侧 置 信 区 间 ， 输 入 side=0 或 缺 省 ， 数 据 输 出 
采用 数据 框 的 形式 ， 输 出 值 是 样本 方差 var, 自由 度 df 和 方差 的 区 间 估 计 a，Pb. 
事实 上， 此 函数 已 包含 了 前 面 讲 过 的 方差 的 区 间 估 计 函 数 interval_var1 
的 功能 . 
例 4.23 求 例 4.21 中 10 个 数据 的 方差 置信 区 间 上 限 (a = 0.05). 
解 : 输入 数据 ， 调 用 也 数 interval_var3() 
> X<-c(10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9) 


> source("interval_var3.R'") 








> interval_var3(X, side=-1) 
var df a b 
1 0.05833333 9 0 0.1578894 
0” 的 置信 上 限 为 0.1579. 
关于 单 侧 置信 区 间 佑 计 本 质 上 与 双 侧 置信 区 间 估 计 是 相同 的 , 不 同 的 只 是 考 
虑 区 间 的 一 侧 ， 因 此， 前 面 介绍 双 侧 佑 计 的 方法 ， 基 本 上 可 以 平行 的 移 到 单 侧 区 
间 估 计 中 ， 有 关 的 R 软件 编程 ， 原则 上 也 是 相同 的 . 
3. 两 个 总 体 求 均值 差 
假设 有 两 个 正 态 总 体 X ~ N(p1,01) 和 YY 六 N(12, 02), X1, X22, Xn 
为 来 自 总 体 匀 的 一 个 样本 ， 关 , 】, …, 7 为 来 自 总 体 Y 的 一 个 样本 ， 1 一 a 
为 置信 度 ， 关 ,分别 为 第 一 、 第 二 样本 均值 ， .57, 53 分 别 为 第 一 、 第 二 样本 方 
差 . 
分 别 讨论 两 总 体 的 方差 07, 03 已 知 、 未 知 和 是 否 相同 情况 下 , 均值 差 /一 /ia 
的 单 侧 置 信 区 间 佑 计 . 
当 cl o2 已 知 时 ， 由 式 (4.29) 和 类 似 于 双 侧 置信 区 间 的 估计 的 推导 ， 得 到 
KH1 一 J2 的 置信 和 度 为 1 一 a 的 单 侧 置 信 区 间 ; 


2 和 2 人 
到 + (7 (4.55) 
N1 N2 Nl 722 


当 oi = ac2 = ,上 且 未 知 时 ， 由 式 (4.31) 和 类 似 于 双 侧 置信 区 间 的 估计 的 推 
导 ， 得 到 yi 一 12 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 : 

















a 1 1 
Yt m2)8, 一 十 一， +o) ; (4.56) 
MN TN2 
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(-= XY+tnit+ns — 2)5, 记 + 疡 | . (4.57) 
Nl Ns 
当 of 和 弛 未 知 ， 且 of 关 03 时 ，j 一 1 的 置信 度 为 1 -- a 的 单 侧 置信 区 
间 ， 


2 2 2 2 
RD Sl +] (7 -x 
人 71 Nn2 


(4.58) 
其 中 由 式 (4.36) 得 到 . 
根据 公式 (4.55)- 公式 (4.58), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 ”interval_estimate5.R )， 并 可 控制 求 上 、 下 置信 区 间或 双 侧 置信 
区 间 . 
interval_estimate5<-function(x, y, 
sigma=c(-1,-1), var.equal=FALSE, side=0, alpha=0.05)+ 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y); Zb<-xb-yb 
if (all(sigma>=0)){ 
if (side<0){ 
tmp<-qnorm(1-alpha)*sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
a <- -Inf; b <- zb+tmp 
} 
else if (side>0)T{ 
tmp<-qnorm(1-alpha)*sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-qnorm(1-alpha/2)*sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
a <- ZzZb-tmp; b <- Zb+tmp 
} 
df<-ni+n2 
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elset 
if (var.equal == TRUE)T 
Sw<-((n1i-1)*var (x)+(n2-1)*var (y))/ (ni+n2-2) 
if (side<0){ 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha,ni+n2-2) 
a <- -Inf; b <- Zb+tmp 
} 
else if (side>0)T{ 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha,ni+n2-2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha/2,n1i+n2-2) 
a <- ZzZb-tmp; b <- Zb+tmp 
} 
df<-nil+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/ (n2-1)) 
if (side<0){ 
tmp<-qt(1-alpha, nu)*sqrt (Si1/n1i+S2/n2) 
a <- -Inf; b <- Zb+tmp 
} 
else if (side>0){ 
tmp<-qt(1-alpha, nu)*sqrt (Si1/n1i+S2/n2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-qt (1-alpha/2, nu)*sqrt (Si1/n1+S2/n2) 
a <- ZzZb-tmp; b <- Zb+tmp 
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df<-nu 


} 
data.frame (mean=zb, df=df, a=a, b=b) 


在 程序 中 ，x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 加 量 . sigma 是 由 
两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 ,输入 相应 的 值 ， 程 序 采 用 正 态 分 布 
计算 区 间 的 端点 . 当 方 差 未 知 时 ， 输 入 项 缺 省 ， 此 时 需要 考虑 两 总 体 是 否 相 同 ， 
若 认 为 两 总 体 方差 相同 ， 输 入 var .equal=TRUE, 程序 采用 自由 度 为 wz: 十 22 一 2 
的 大 分 布 计算 区 间 端 点 ; 者 认为 两 总 体 方差 不 同 ， 输 入 var .equal=FALSE 或 缺 
省 ,程序 采用 自由 度 为 v 的 t=- 分 布 计算 区 间 端 点 当 ~ 不 是 整数 时 ， 程 序 在 计 
算 三 分 布 时 ， 其 值 采用 插值 方法 得 到 . side 是 控制 求 置 信 区 间 上 下 限 ， 若 求 
置信 区 间 上 限 ， 输 入 side=-1; 知 求 置信 区 间 下 限 ， 输 入 side=1; 知 求 双 侧 置信 
区 间 ， 输 入 side=0 或 缺 省 ， 输 出 采用 数据 框 形式 ， 输 出 样本 均值 差 mean, 自由 
度 df, 和 均值 差 的 区 间 估 计 的 两 个 端点 a,b. 

上 述 程 序 实 际 上 包含 了 求 双 侧 置信 区 间 的 情况 ， 也 就 是 说 ， 函 数 interval 
_estimate5 包含 了 函数 interval_estimate2 的 功能 . 


4. 求 两 个 总 体 方差 的 情况 

假设 与 前 面相 同 ，5? 和 53 是 由 式 (4.38) 定义 的 ， 分别 讨论 两 总 体 均值 Ja 
与 jw 已 知 和 ji 与 12 未 知情 况 下 ， 方 差 比 of/03 的 单 侧 区 间 估 计 . 

当 jw 与 jw 已 知 时 ， 由 式 (4.39), 有 


入 2 2 人 2 
P {Be < Flm mm) ) 二 工 一 0 P{ Falmm) < 二 二 工 一 0 

















03/02 一 ~ 02/03 
因此 ， of/o02 的 置信 水 平 1 一 a 的 单 侧 置 信 区 间 为 
09/93 ) | 09/93 
| 有 ee Ww Pi_a(n1, n2) | ( 0 


当 与 jw2 未知 时 ， 由 式 (4.42) 和 (4.43), 得 到 
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| 3 < Palm — bm)) eT 
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Si/ot 
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则 of/03 的 置信 水 平 1 一 a 的 单 侧 置信 区 间 为 
91/32 531/32 


= 0, 一 一 一 一 一 一 一 ~ |. 4.60 
Fua(mi 一 1mn2 一 1 tm), | Fi_a(ni—1,n2— 2) ( ) 


根据 公式 (4.59) 和 公式 (4.60), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 interval_var4.R )， 并 可 控制 求 上 置信 区 间 、 双 侧 置 信 区 间 . 
interval_var4<-function(x,y, 
mu=c(Inf, Inf), side=0, alpha=0.05)+ 
ni<-length(x); n2<-length(y) 
if (all(mu<Inf)) { 
Sx2<-1/ni*sum( (x-mu[1])“2); df1i<-ni 
Sy2<-1/n2*sum((y-mu[2] )“2); df2<-n2 
} 
elset{ 
Sx2<-var (x); Sy2<-var(y); dfi<-ni-1; df2<-n2-1 
} 
r<-Sx2/Sy2 
if (side<0) { 
a <-0 
b <- r/qf(alpha,df1 ,df2) 
} 
else if (side>0) { 
a <- r/qf(1-alpha,df1,df2) 
b <- Inf 
} 
elset 
a<-r/gf (1-alpha/2,df1 ,df2) 
b<-r/qf (alpha/2,df1 ,df2) 
} 
data.frame(rate=r, df1i=df1, df2=df2,a=a, b=b) 
} 


在 程序 中 ， x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 . mu 


Dou 
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由 两 总 体 均值 构成 的 向 量 ， 当 均值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 自由 度 为 
(m,n2) 的 F- 分布 计算 区 间 佑 计 的 两 个 端点 ;否则 (输入 缺 省 ), 程序 采用 自由 度 
为 (m1 一 1,n2 一 1) 的 FF 分 布 计算 区 间 估 计 的 两 个 端点 . side 是 控制 求 置信 区 
间 上 下 限 ,， 寿 求 置信 区 间 上 限 , 输入 side=-1; 者 求 置信 区 间 下 限 ， 输 入 side=1; 
耕 求 双 侧 置信 区 间 , 输入 side=0 或 缺 省 ， alpha 是 显著 性 水 平 ， 缺 省 值 为 0.05. 
输出 采用 数据 框 形 式 ， 输 出 的 变量 有 : 样本 方差 比 rate, 第 一 自由 度 df1, 第 二 
自由 度 df2, 和 方差 比 的 区 间 佑 计 的 端点 a，b. 








题 四 


uA 


4.1 设 总 体 的 分 布 密度 为 
(a+1)z°, 0<7z<1, 
f(x; aQ) = 
0， 其 他 ， 
XX1, 2,…… ,Xn 为 其 样本 ， 求 参数 a 的 矩 估计 量 Gil 和 极 大 似 然 估计 量 Ga. 现 测 
得 样本 观测 值 为 
0.1 0.2 0.9 0.8 0.7 0.7 
求 参 数 a 的 估计 值 . 
4.2 设 元 件 无 故障 工作 时 间 怀 具有 指数 分 布 ， 取 1000 个 元 件 工作 时 间 的 记录 
数据 ， 经 分 组 后 得 到 它 的 频数 分 布 为 
组 中 值 x; 5 15 25 35 /5 655 65 
频数 vi 965 245 150 100 7 有 25 
如 果 各 组 中 数据 都 取 为 组 中 值 ， 试 用 极 大 似 然 估计 求 入 的 点 估计 . 
4.3 为 检验 某 自 来 水 消毒 设备 的 效果 ， 现 从 消毒 后 的 水 中 随机 抽取 50 升 ， 化 验 
每 升水 中 大 肠 杆 菌 的 个 数 (假设 一 升水 中 大 肠 杆 菌 个 数 服 从 Poisson 分 布 ) 其 化 
验 结 采 如 下 : 
大 肠 杆菌 数 / 升 | 0 1 2 39 4 5 6 
升 数 17 20 10 2 1 0 0 
试问 平均 每 升水 中 大 肠 杆 菌 个 数 为 多 少时 ， 才 能 使 上 述 情 况 的 概率 为 最 大 ? 


236 第 中 奏 参 数 估计 
4.4 利用 R 软件 中 的 nlm() 函数 求解 无 约束 优化 问题 


min f(z) = (13+z1i+((5— 22)z2 一 2)zZ2)2 
+ (—29+ zi+t (v2 + 1)x2 一 14)zo)2， 














取 初 始点 X00) 一 (0.5, 一 2) 
4.5 正常 人 的 脉搏 平均 每 分 钟 72 次 ， 某 医生 测 得 10 例 四 乙 基 铝 中 毒 患 各 的 脉 
捕 数 (次 /分 ) 如 下 : 

54 67 68 78 70 66 67 70 65 69 
已 知人 的 脉搏 次 数 服从 正 态 分 布 ， 试 计算 这 10 名 患者 平均 脉搏 次 数 的 点 估计 和 
95 狗 的 区 闻 估 计 . 并 作 单 侧 区 闻 估 计 ， 试 分 析 这 10 名 患者 的 平均 脉搏 次 数 是 否 
低 于 正常 人 的 平均 脉搏 次 数 . 
4.6 甲 、 乙 两 种 稻 种 分 别 播 种 在 10 块 试验 田中 ， 每 块 试验 田 甲 、 乙 稻 种 各 种 一 
半 . 假设 两 稻 种 产量 义 , 》 均 服从 正 态 分 布 ， 且 方差 相等 收获 后 10 块 试验 田 
的 产量 如 下 所 示 (单位 ， 千克). 

甲 种 | 140 137 196 140 145 148 140 195 144 141 
忆 种 | 195 118 115 140 128 191 130 115 191 125 

求 出 两 稻 种 产量 的 期 望 差 11 一 Ha 的 置信 区 间 (a = 0.05) . 
4.7 甲 、 忆 两 组 生产 同 种 导线 ， 现 从 甲 组 生产 的 导线 中 随机 机 取 4 根 ， 从 已 组 
生产 的 导线 中 随机 机 取 5 根 ， 它 们 的 电阻 值 (单位 ， 2) 分 别 为 

甲 组 0.143 0.142 0.143 0.137 

乙 组 0.140 0.142 0.196 0.138 0.140 
假设 两 组 电阻 值 分 别 服从 正 态 分 布 N(11,0”) 和 NN(jJ42,0”), 02 未 知 . 试 求 41 一 12 
的 置信 系数 为 0.95 的 区 间 舍 计 . 
4.8 对 习题 4.6 中 甲乙 两 种 稻 种 的 数据 作 方 差 比 的 区 间 人 估计， 并 用 其 估计 值 来 
判定 两 数据 是 否 等 方差 . 车 两 数据 方差 不 相等 , 试 重新 计算 两 稻 种 产量 的 期 望 差 
Ll1 一 LW2 的 置信 区 间 (a = 0.05) . 
4.9 设 电 话 总 机 在 某 段 时 间 内 接 到 的 呼唤 的 次 数 服 从 参数 未 知 的 Poisson 分 布 
己 (A),， 现 收集 了 42 个 数据 
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接 到 呼唤 次 数 | 0 1 2 3 /4 5 6 
出 现 的 频数 7 10 12 8 3 2 0 
试 求 出 平均 呼唤 次 数 入 的 估计 值 和 它 的 置信 系数 为 0.95 的 置信 区 间 . 
4.10 已 知 某 种 灯泡 寿命 服从 正 态 分 布 , 在 某 星期 所 生产 的 该 灯泡 中 随机 柚 取 10 
只 ， 测 得 其 寿命 单位， 小 时 ) 为 
1067 919 1196 785 1126 936 918 1156 920 948 
求 灯泡 寿命 平均 值 的 置信 和 度 为 0.95 的 单 侧 置信 下 限 . 
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第 五 章 ”假设 检验 


假设 检验 (test of hypothesis) 是 统计 推断 中 的 一 个 重要 和 内容， 它 是 利用 搜索 
到 的 数据 对 某 个 事先 作出 的 统计 假设 按照 某 种 设计 好 的 方法 进行 检验 ,判断 此 假 
设 是 否 正确 . 





5.1 假设 检验 的 基本 概念 


5.1.1 基本 概念 


在 数理 统计 分 析 中 ， 只 能 由 估计 量 估 计 总 体 的 参数 . 尽管 能 获得 总 体 参数 的 
无 偏 估计 ， 总 体 的 参数 始终 是 不 可 知 的 .只 能 通过 统计 检验 ， 由 统计 量 推断 总 体 
的 参数 . 在 统计 推断 过 程 中 ,需要 对 参数 提出 一 定 的 假设 ,然后 对 提出 的 假设 进 
行 假设 检验 .用 一 个 例子 说 明 假设 检验 的 基本 概念. 

例 5.1 设 某 工厂 生产 的 一 批 产品 ， 其 次 品 率 九 是 未 知 的 . 按 规定 ， 若 p < 0.01， 
则 这 批 产品 为 可 接受 的 ; 否则 为 不 可 接受 的 , 这 里 久之 0.01” 便 是 一 个 需要 的 
假设 ， 记 为 五 . 假定 从 这 批 数 据 很 大 的 产品 中 随机 地 抽取 100 件 样品 ， 发 现 其 中 
有 三 件 次 品 ， 这 一 抽样 结果 便 成 为 判断 假设 及 是 否 成 立 的 依据 ， 显 然 ， 样 品 中 

火 品 个 数 念 多 对 假设 且 念 不 利 ; 反之 则 对 且 有 利 . 记 样 品 中 次 品 个 数 为 环 ， 问 
二 X 大 到 什么 程序 就 应 该 拒绝 万 ? 

分 析 : 由 于 否定 了 互 就 等 于 否定 了 一 大 批 产 品 ， 这 个 问题 应 该 慎重 处 理 . 
统计 学 上 常用 的 作法 是 : 先 假定 H 成 立 ， 来 计算 X > 3 的 概率 有 多 大 ?由 于 
X 分 布 为 B(n,p), 其 中 == 100, 容易 计算 出 P001{X 二 3} 洁 0.08. 显然 ， 对 
p < 0.01, 这 概率 值 还 要 小 ， 也 就 是 说 ， 当 假设 五 (p < 0.01) 成 立时 ， 100 个 样 
品 中 有 3 个 或 3 个 以 上 次 品 的 概率 不 超过 0.08. 这 可 以 看 作 是 一 个 “小 概率 ” 事 
件 . 而 在 一 次 试验 中 就 发 生 了 一 个 小 概率 事件 是 不 大 可 能 的 . 因此 ， 事 先 作出 的 
假设 “p < 0.01” 是 非常 可 疑 的 . 在 需要 作出 最 终 判决 时 ， 就 应 该 否定 这 个 假设 ， 
而 认定 这 批 产 品 不 可 接受 ( 即 认为 p > 0.01). 

上 述 例子 中 包含 了 假设 检验 的 一 些 重要 的 基本 概念 . 一 般 , 设 0 为 用 以 确定 
总 体 分 布 的 一 个 未 知 参数 ， 其 一 切 可 能 值 的 集合 记 为 6. 则 关于 0 的 任 一 假设 
可 用 “0 € 69” 来 表示 ， 其 中 6' 为 9 的 一 个 真子 集 . 在 统计 假设 检验 中 ， 首 先 
要 有 一 个 作为 检验 的 对 象 的 假设 ， 常 称 不 原 假设 或 零 假设 (null hypothesis). 与 
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之 相应 ,为 使 问题 表述 得 更 明确 ， 还 常 提出 一 个 与 之 对 应 的 假设 ,， 称 为 备 择 假设 
(alternative hypothesis). 原 假 设 和 备 择 假 设 常 表示 为 


万 0 : 0 € Oo, 万 1 : 0 € Oi, 


其 中 6o 和 61 为 9 的 两 个 不 相交 的 真子 集 ， Ho 表示 原 假设 ， Hi 表示 备 择 假 
设 
关于 一 维 实 参数 的 假设 常 有 以 下 三 种 形式 (其 中 % 为 给 定 值 ): 
(1) 单 边 检 验 
万 0 : 0 < Oo, Hi: 0 > 00. 


(2) 单 边 检验 
万 0 : 0 过 00， 万 1 : 0 < 00. 


(3) 双边 检验 
万 0 : 0 = Oo, Hi: 0 # Oo. 


通常 也 称 双边 检验 为 二 尾 检 验 ， 称 单 边 检 验 为 一 尾 检 验 . 

假设 检验 的 依据 是 样本 . 样本 的 某 些 取 值 可 能 对 原 假设 Ho 有利， 而 男 一 些 
取 值 可 能 对 Ho 不 利 ， 因 此 可 以 根据 某 种 公认 的 合理 准则 将 样本 空间 分 成 两 部 
分 . 一 部 分 你 为 拒绝 域 (critical region), 当 样 本 落 入 拒绝 域 时 ， 便 拒绝 Ho; 另 一 
部 分 可 称 为 接受 域 (acceptance region), 当 样本 落 入 它 时 不 拒绝 五 0. 

构造 拒绝 域 的 常用 方法 是 寻找 一 个 统计 量 9( 如 例 5.1 中 的 样品 中 次 品 的 件 
数 X), 9 的 大 小 可 以 反映 对 原 假设 Ho 有 利 或 不 利 ， 因 此， 确定 拒绝 域 W 的 问 
题 转 化 为 确定 9 的 一 个 取 值 域 C 的 问题 . 
定义 5.1 对 假设 检验 问题 ， 设 六 1, X2……，Xn 为 样本 ， W 为 样本 空间 中 的 一 个 
子 集 ， 对 于 给 定 的 Qa € (0,1), 著 WW 满足 





Po {(X1, X2, ,Xn) € W} <a, v0OE Oo, (5.1) 


则 称 由 W 构成 拒绝 域 的 检验 方法 为 显著 性 水 平 (evidence level) a 的 检验 . 
显著 性 水 平 a 凋 用 的 取 值 为 0.1 0.05 和 0.01 等 . 对 一 个 显著 性 水 平 a 的 检 

验 ， 假 定 原 假设 Ho 成 立 ， 而 样本 落 入 拒绝 域 W 中 ， 就 意味 着 一 个 小 概率 发 生 

了 .而 在 一 次 试验 中 发 生 一 个 小 概率 事件 是 可 疑 的 ， 结 果 就 导致 了 对 原 假设 人 Ho 
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的 否定 . 在 例 5.1 中 ， 如 果 事 先 给 定 a = 0.1, 而 =0.01{XX > 3} = 0.08, 因此 当 
p < 0.01 时 ， 这 个 概率 还 要 小 . 根据 定义 5.1, W = {X > 3} 便 给 出 了 假设 检验 
Ho :p< po = 0.01 的 显著 性 水 平 a = 0.1 的 拒绝 域 ， 由 X= 3 便 可 拒绝 Ho. 但 
如 果 事 先 给 定 的 显著 性 水 平 a = 0.05, 这 时 ， 相 应 的 显著 性 水 平 a 的 检验 的 拒绝 
域 W = {X44, 这 时 X= 3 就 不 能 拒绝 Ho. 由 此 可 见 ， 显 车 性 水 平 a 愈 小 ， 
则 拒绝 原 假设 愈 困 难 . 换言之 , 显著 性 水 平 a 愈 小 , 则 当 样 本 落 入 拒绝 域 因而 拒 
绝 Ho 就 愈加 可 信 . 

通 浓 , 作假 设 者 对 原 假设 Ho 往往 事先 有 一 定 的 信任 度 , 或 者 一 旦 否定 了 Ho 
就 意味 着 作出 一 个 重大 的 决 案 ， 需 谨慎 从 事 ， 因 此 把 检验 的 显著 性 水 平 a 取得 
比较 小 其 中 体现 了 一 种 “保护 原 假设 ”的 思想 . 


5.1.2 ”假设 检验 的 基本 思想 与 步 又 


假设 检验 的 基本 思想 : 

(1) 用 了 反 证 法 的 思想 . 为 了 检验 一 个 “假设 是 否 成 立 ， 就 完 假定 这 个 “ 假 
设 ” 是 成 立 的 ， 而 看 由 此 会 产生 的 后 果 . 如 果 导 致 一 个 不 合理 的 现象 的 出 现 ， 那 
么 就 表明 原先 的 假定 不 正确 ， 也 就 是 说 ，“ 假 设 ” 不成立 ， 因 此 ， 我 们 就 拒绝 这 
个 “假设 ”. 如 果 由 此 没有 导出 不 合理 的 现象 发 生 ， 则 不 能 拒绝 原来 这 个 “假设 ”， 
称 原 假 设 是 相 容 的 . 

(2) 它 又 区 别 于 纯 数 学 中 的 反 证 法 . 因为 这 里 所 请 的 “不 合理 ”, 并 不 是 形式 
逻辑 中 的 绝对 矛盾 ， 而 是 基于 人 们 实践 中 广泛 采用 的 一 个 原则 :小 概率 事件 在 一 
次 观察 中 可 以 认为 基本 上 不 会 发 生 . 

假设 检验 的 一 般 步 又 为 : 

(1) 对 符 检 验 的 未 知 参数 9 根据 问题 的 需要 作出 一 个 单 边 或 双边 的 假设 . 选 
择 原 假设 的 原则 是 : 事先 有 一 定 信 任 度 或 出 于 某 种 考虑 是 否 要 加 以 “保护 ”. 

(2) 选 定 一 个 显著 性 水 平 a, 最 常用 的 是 a = 0.05, 放松 一 点 可 取 a = 0.075 
或 0.1, 严格 一 些 可 取 a = 0.025 或 0.01. 

(3) 构造 一 个 统计 量 9, 9 的 大 小 反映 对 Ho 有 利 或 不 利 ， 拒绝 域 有 形式 W = 
{9 EC 

(4) 根据 定义 5.1 来 确定 W. 
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5.1.3 ”假设 检验 的 两 类 错误 


在 根据 假设 检验 作出 统计 决断 时 ， 可 能 犯 两 类 错误 . 第 一 类 错误 是 否定 了 真 
实 的 原 假 设 ， 犯 一 型 错误 的 概率 定义 为 显著 性 水 平 a, 即 


Qa 二 P{ 否 定 Ho | Ho 是 真实 的 }， 


可 以 通过 控制 显著 性 水 平 a 来 控制 犯 第 一 类 错误 的 概率 . 
第 二 类 错误 是 接受 了 错误 的 原 假 设 . 犯 第 二 类 错误 的 概率 常用 6 表示 ， 即 


0 = P{ 接 受 Ho | Ho 是 错误 的 }. 








通常 来 讲 ， 在 给 定 样 本 容量 的 情况 下， 如果 减少 犯 第 一 类 错误 的 概率 ， 就 会 
增加 犯 第 二 类 错误 的 概率 . 而 减少 犯 第 二 类 错误 的 概率 ， 也 会 增加 犯 第 一 类 错 
误 的 概率 . 如 果 和 希望 同时 减少 犯 第 一 类 和 第 二 类 错误 的 概率 ， 就 需要 增加 样本 容 
量 ， 但 样本 容量 的 增加 ， 是 需要 增加 抽样 成 本 ， 这 有 时 是 不 可 行 的 ， 

在 统计 检验 中 , 评价 一 个 假设 检验 好 坏 的 标准 是 统计 检验 功效 ， 所谓 功效 就 
是 正确 地 否定 了 错误 的 原 假设 的 概率 ， 常 用 7 表示 ， 即 





7 二 1 一 B= P{ 否 定 Ho | 是 错误 的 }. 


如 果 统 计 检 验 接受 了 原 假设 Ho : 9 = 00, 则 可 以 通过 计算 置信 区 间 ， 推 断 总 
体 参 数 9 的 取 值 范围 . 置信 区 间 是 根据 一 定 置信 程度 而 佑 计 的 区 间 ， 它 给 出 了 未 
知 的 总 体 参数 的 上 下 限 . 





5.2 重要 的 参数 检验 


由 于 实际 问题 中 大 多 数 随 机 变量 服从 或 近似 服从 正 态 分 布 , 因此 ,这 里 重点 
介绍 正 态 参数 的 假设 检验 . 按 总 体 的 个 数 ， 又 可 分 为 单个 正 态 总 体 和 两 个 正 态 总 
体 的 参数 检验 . 


5.2.1 正 态 总 体 均值 的 假设 检验 


1. 单个 总 体 的 情况 
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设 总 体 X ~ NU co Xi, Xo,…,X 是 来 自 总 体 X 的 一 个 样本 ,均值 1 
的 检验 分 为 ， 双 边 检验 和 单 边 检验 ， 在 讨论 中 ， 又 分 为 总 体 方差 0? 已 知 和 总 体 
方差 2 未 知 两 种 情况 . 

(1) 双边 检验 ， 即 


Ho: k= Ho, Hi: WA ko: 


当 方差 0 已 知 时 ,由 第 一 章 1.5.4 节 的 统计 知识 ( 式 (1.93)) 可 知 , 当 Fo 为 
真 时 ， 





a Xho a 
3Z= 二 是 ~ NO (5.2) 
因此 用 2 来 确定 拒绝 域 ， 即 当 
[Z| > Zap?2, 


则 认为 Ho 不 成 立 ， 其 中 a 为 显著 性 水 平 . 这 种 方法 称 为 正 态 检验 法 . 
当 方 差 2? 未知 时 ， 由 统计 知识 (1.5.4 节 的 式 (1.95)) 可 知 ， 当 Ho 为 真 时 ， 
一 ho 


Te 


~ t(n—1), (5.3) 
因此 当 
[TI| 2 ta2(n — 1), 
则 认为 Ho 不 成 立 ， 这 种 方法 称 为 1 检验 法 . 
在 实际 问题 中 ， 正 态 总 体 的 方差 通常 是 未 知 的 ， 所 以 常用 t 检验 法 来 检验 关 
于 正 态 总 体 均 值 的 检验 问题 . 
(2) 单 检验 ， 即 


Ho: p<pho HF: p>po (或 Ho: p>p0, HF: p< po), 
当 方 差 o? 已 知 时 ， 其 拒绝 域 为 
a A 
当 方差 o? 未 知 时 ， 其 拒绝 域 为 


T>ton-1) (或 了 <- -1)). 
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在 传统 的 方法 中 ,通常 采用 查 表 的 方法 来 确定 临界 值 ， 而 在 计算 机 软件 的 计 
算 中 ， 通 常 是 计算 P 一 值 ， 当 PP 一 值 小 于 指定 的 显著 性 水 平 a, 则 拒绝 原 假设 . 
所 请 P 一 值 就 是 随机 变量 X 大 于 (或 小 于 ) 某 个 指定 值 的 概率 . 
对 于 单 边 检验 比较 简单 ， 以 正 态 分 布 为 例 , 在 给 定 > 值 后 ， 只 需 考 虑 XX 二 z 
的 概率 ， 即 
P- 值 = PEX > 村 = | tlw)dr =1- B02) 
= 1— pnorm(z, 0， 1) ， (5.4) 


或 者 考虑 X < z 的 概率 ， 即 
PP 一 值 = P{X <z}= a gzZ)dz = pnorm(z, 0, 1). (5.5) 
对 于 双边 检验 ， 还 是 以 正 态 分 布 为 例 ， 在 给 定 z 值 后 ， 需 要 考虑 X > |z| 和 
X < 一 |z| 的 概率 ， 或 者 考虑 X > |z| 概率 的 两 倍 . 因此 ， PP 一 值 的 计算 公式 为 


ee 2P{X<z)}， 如 果 P{X <z} < P{X> 2} 
人 > 2}， 否则 


2 ot)ar, 条 f otrar< 人 ol 
2 | stojdz， 在 则 
下 | 28B(z), 如 果 B(z) < (1 一 B(z)) 
2(1 一 8(2)) 否则 
| 2 pnorm(z), 如 果 pnorm(z) < 
2(1 一 pnorm(z)) 否则 


1 
2 (5.6) 
将 式 (5.4)-(5.6) 编写 成 求 P- 值 的 R 程序 (程序 名 : P_value.B) 
P_value<-function(cdf, x, paramet=numeric(0), side=0){ 
n<-length (paramet) 
p<-switch(n+1, 
cdf (x) ， 
cdf (x, paramet), 
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cdf (x, paramet [1] ，paramet [2] ) ， 
cdf (x, paramet [1], paramet [2] , paramet [3] ) 


) 
if (side<0) P 
else if (side>0) 1-P 
else 
if (P<1/2) 2*P 
else 2* (1-P) 


} 


其 中 输入 值 cdf 是 分 布 函数 ， 如 正 态 分 布 就 是 pnorm. x 是 计算 P- 值 的 给 定 
值 ，paramet 是 对 应 分 布 的 参数 , 如 正 态 分 布 的 参数 为 paramet=c (mu，sigma). 
side 是 计算 单 侧 P- 值 或 双 侧 P- 值 的 指标 参数 ， 输 入 side=-1, 计算 左 侧 的 P- 
值 ; 输入 side=1, 计算 右 侧 的 P- 值 ; 输入 side=0 或 缺 省 ， 计 算 双 侧 P- 值 . 函 
数 的 输出 值 是 相应 的 P- 值 . 

在 得 到 P 一 值 后 ， 其 检验 标准 改 为 : 当 P- 值 小 于 指定 的 显著 性 水 平 a 时 ， 
则 拒绝 原 假设 ， 否 则 不 拒绝 原 假设 . 

将 上 面 进 述 介绍 的 正 态 检验 方法 ( 式 (5.2)) 和 + 检验 方法 ( 式 5.3) 与 求 
P- 值 的 R 程序 相 结 合 ， 编 写 求 一 个 正 态 总 体 均 值 检验 的 R 程序 (程序 名 : 


mean.test1.R) 


mean.test1i<-function(x, mu=0, sigma=-1, side=0){ 
source("P_value.R'") 
n<-length(x); xb<-mean(x) 
if (sigma>0){ 
Zz<-(xb-mu)/(sigma/sqrt (n)) 
P<-P_value (pnorm, Zz, side=side) 
data.frame (mean=xb, df=n, Z=z, P_value=P) 
} 
elset{ 
t<-(xb-mu)/(sd(x)/sqrt (n)) 
P<-P_value(pt, t, paramet=n-1, side=side) 


data.frame (mean=xb, df=n-1, T=t, P_value=P) 
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} 
在 上 述 程序 中 , 输入 值 x 是 数据 (样本 ) 构成 的 向 量 ， mu 是 原 假 设 /o. sigma 
是 标准 差 o, 当 o 已 知 时 , 输入 相应 的 值 ， 程序 采用 正 态 检验 法 ， 当 o 未 知 时 ( 缺 
省 ), 程序 采用 t- 检验 法 . side 是 指 双边 检验 还 是 单 边 检 验 . 输入 side = 0 
(或 缺 省 ), 程序 作 双 边 检验 ， 其 备 择 假设 为 ， 人 入 Hpo; 输入 side = -1 (或 <0 的 
值 ), 程序 作 单 边 检验 ， 其 备 择 假设 为 ， /< Hpo; 输入 side = 1 (或 > 0 的 值 ), 程 
序 作 单 边 检验 ， 其 备 择 假设 为 : 从 > /Ho. 
程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 : 均值 (mean), 自由 度 (df), 统计 量 
(T 值 或 z 值 ), 和 P- 值 . 
例 5.2 某 种 元 件 的 寿命 X ( 以 小 时 计 ) 服从 正 坟 分 布 N(1,0?), 其 中 14,0? 均 未 
知 . 现 测 得 16 只 元 件 的 寿命 如 下 : 
159 280 101 212 224 379 179 264 
222 362 168 250 149 260 485 170 


问 是 否 有 理由 认为 元 件 的 平均 寿命 大 于 225 (小 时 )? 
解 : 按 题 意 (注意 前 面 提 到 的 假设 检验 运用 了 反 证 法 的 思想 ), 需 检验 


万 0 : KH < 10 = 225, Hi: HK > /0 = 225. 


此 问题 是 单 边 检验 问题 . 
输入 数据 ， 调 用 函数 mean .test10, 得 到 
> X<-c(159，280，101，212，224，379，179，264， 
222，362，168，250，149，260，485，170) 
> Source('mean.test1.R"D) 
> mean.test1i(X, mu=225, side=1) 
mean df T Pvalue 
1 241.5 15 0.6685177 0.2569801 
计算 出 一 值 是 0.2569801(> 0.05), 不 能 拒绝 原 假设 ,接受 Ho, 即 认为 平均 寿命 
不 大 于 225 小 时 . 
实际 上 , 参数 的 区 间 佑 计 也 作假 设 检验 ， 换 句 话 说， 区 间 佑 计 与 假设 检验 本 
质 上 是 相同 的 ， 对 例 5.2 中 的 数据 作 单 侧 区 间 估 计 (估计 下 限 )， 
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> Source('"interval_estimate4.R1") 
> interval_estimate4(X, side=1) 
mean df a b 


1 241.5 15 198.2321 Inf 
置信 下 限 为 198.23 < 225, 因此 只 能 接受 原 假设 , 认为 平均 寿命 不 大 于 225 小 时 . 


在 R 软件 中 ， 函 数 t.test() 提供 了 工 检验 和 相应 的 区 间 估 计 的 功能 ， 
t.test() 的 使 用 格式 如 下 : 
t.test(x, y = NULL， 





alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 


其 中 x,y 是 由 数据 构成 向 量 (如 果 只 提供 x, 则 作 单 个 正 态 总 体 的 均值 检验 ， 天 
则 作 两 个 总 体 的 均值 检验 ), alternative 表示 备 择 假设 ，two.sided( 缺 省 ) 表示 
双边 检验 ( 肋 : 1 六 10), less 表示 单 边 检 验 (于 : 1 < jo), greater 表示 单 边 检 
验 (本 :4 > 10). mu 表示 原 假设 Lo. conf .level 是 置信 水 平 ， 即 1 一 a, 通常 是 
0.95. 


再 用 t.test() 函数 计算 例 5.2. 


> t.test(X, alternative = "greater", mu = 225) 
One Sample t-test 

data: X 
t = 0.6685, df = 15, p-value = 0.257 
alternative hypothesis: true mean is greater than 225 
95 percent confidence interval: 

198 .2321 ID 
sample estimates: 
mean of x 


241.5 


可 以 看 到 ， 所 计算 的 了 值 、 忆 =- 值 、 和 均值 ， 以 及 区 间 佑 计 值 与 我 们 所 编 
程序 的 计算 值 完全 相同 ， 因 此 ， 可 以 利用 遂 数 t.test() 对 单个 总 体 正 态 数据 作 
均值 检验 和 区 间 佑 计 . 由 这 个 例子 和 自 编 的 程序 的 计算 结果 ， 可 以 使 我 们 加 深 对 
R 软件 中 的 .test() 函数 的 认识 .当然 ，t.test() 函数 还 有 更 强大 的 功能 ， 


248 第 五 章 假设 检验 
这 些 功能 我 们 将 在 后 面子 以 介绍 . 

2. 两 个 总 体 的 情况 

假设 从 1) 及 2， ee A 是 来 自 总 体 X~ VIA of) 的 样本 ， 六 ， Y2， 人 Yna 
来 自 总 体 ~ N(ua,o2) 的 样本 ， 且 两 样本 独立 ， 其 检验 问题 有 
双边 检验 : Ho: Wi=p, Hi: 和 天 Ho， 
单 边 检验 工 Ho: np, Hi: HM>HA2， 
单 边 检 验 I: Ho: ji>p2, HH: Wi < Ha. 


是 





分 儿 种 情况 讨论 . 
(1) 方差 of 和 03 已 知 . 由 统计 知识 (1.5.4 节 的 式 (1.97)) 可 知 ， 当 Ho 为 真 
时 ， a 
Z= 2 = ~ N(0,1). (5.7) 


因此 ， 当 2 满足 ( 称 为 拒绝 域 ) 
双边 检验 ， |2| > Zoom 
单 边 检验 了 > 和 
单 边 检验 I: 2Z < -和 
则 认为 不 成 立 ， 此 方法 仍 称 为 正 态 检验 法 . 
(2) 方差 09 == 03 =o? 未 知 。 5S? 和 553 分 别 是 XX 和 Y 的 样本 方差 ,由 统 


计 知 识 (1.5.4 节 的 式 (1.98)) 可 知 ， 当 Ho 为 真 时 ， 
-YY 
十 


”| 


大 年 人 t(n1 十 ma 一 2)， 
nz 


Dw 


2 


9 


其 中 
(ma — 1)S? 十 (72 一 DS (5.9) 


5 一 ni 十 n2 一 2 
因此 ， 当 7 了 满足 ( 称 为 拒绝 域 ) 
双边 检验 : (TI 2 ton + n2 — 2), 
单 边 检验 I: 全 过 如 (ma 十 ma 一 2)， 
单 边 检 验 II: TT < -ts(ni 二 no 一 2). 
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则 认为 Ho 不成立， 此 方法 仍 称 为 i- 检验 法 . 
(3) 方差 of 隆 02 未 知 ， S51 和 32 分 别 是 X 和 Y 的 样本 方差 . 可 以 证 明 


及 一 六 
T= ~ 1(7 5.10 
本 (7) (5.10) 
Nn1 n2 


近似 成 立 ， 其 中 
Pg (Ch E> 
9- (和 +) (TO ee 
因此 ， 当 了 满足 ( 称 为 拒绝 域 ) 


双边 检验 : ba 
单 边 检验 I 人 > 如 人 
单 边 检验 II 了 < -t。(D). 


则 认为 Ho 不 成 立 . 
根据 公式 (5.7) 、 公 式 (5.8) 和 公式 (5.10) 写 出 三 种 情况 下 两 总 体 均值 检验 
的 及 程序 (程序 名 : mean.test2.R ). 
mean.test2<-function(x, y, 
sigma=c(-1, -1), var.equal=FALSE, side=0)1{ 
source("P_value.R'") 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y) 
if (all(sigma>0)){ 
z<-(xb-yb)/sqrt(sigma[1] “2/nit+sigma[2] “2/n2) 
P<-P_value(pnorm, Zz, side=side) 
data.frame (mean=xb-yb, df=n1i+n2, Z=z, P_value=P) 
} 
elsel{ 
if (var.equal == TRUE)T 
Sw<-Ssqrt(((n1-1)*Var(X)+(n2-1)*xVar(y))/ (nil+n2-2)) 
t<-(xb-yb)/ (Sw*sqrt (1/n1i+1/n2)) 
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nu<-ni+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/(n2-1)) 
t<-(xb-yb)/sqrt (S1/n1+S2/n2) 
} 
P<-P_value(pt, t, paramet=nu, side=side) 


data.frame (mean=xb-yb, df=nu, T=t, P_value=P) 


在 上 述 程序 中 ,输入 值 x,y 是 来 自 两 个 总 体 数 据 构 成 的 向 量 . sigma 是 由 
两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 , 输入 相应 的 值 ， 程 序 采用 正 态 检验 
法 ;， 当 标准 差 未 知 时 ( 缺 省 ), 程序 采用 t+- 检验 法 . var.equal 是 逻辑 变量 ， 
输入 var .equal=TRUE, 表示 认为 两 总 体 的 方差 相同 ; 输入 var .equal=FALSE (或 
缺 省 ), 表示 认为 两 总 体 的 方差 不 同 ， side 是 指 双边 检验 还 是 单 边 检验 .输入 
side = 0 (或 缺 省 ), 程序 作 双 边 检 验 ， 其 备 择 假设 为 ， 1 关 12; 输入 side = -1 
(或 < 0 的 值 ), 程序 作 单 边 检验 ， 其 备 择 假设 为 。 1 < 1w; 输入 side = 1 (或 
> 0 的 值 ), 程序 作 单 边 检验 ， 其 备 择 假设 为 :1 > 12. 


程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 ， 均值 的 差 (nean), 自由 度 (df), 统 
计量 (T 值 或 z 值 ), 和 P- 值 . 
例 5.3 在 平 护 上 进行 一 项 试验 以 确定 改变 操作 方法 的 建议 是 否 会 增加 钢 的 得 率 ， 
试验 是 在 同一 个 平 炉 上 进行 的 . 每 炼 一 炉 钢 时 除 操 作 方 法 外 ， 其 他 条 件 都 尽 可 能 
做 到 相同 ， 先 用 标准 方法 炼 一 炉 ， 然 后 用 新 方法 炼 一 炉 ， 以 后 交替 进行 ， 各 炼 了 
10 炉 ， 其 得 率 分 别 为 








标准 方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 
新 方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 


设 这 两 样本 相互 独立 ， 且 分 别 来 自 正 态 总 体 N(11,0?) 和 N(jJw2,0?), 其 中 41,42 
和 oa2 未 知 .， 问 新 的 操作 能 否 提高 得 率 ? ( 取 a 二 0.05 ) 
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解 : 根据 题 意 ， 需 要 假设 
Ho: mp2, Hi: Hi < Ho， 
这 里 假定 of = o2 = 0 因此 选择 t- 检验 法 ,方差 相同 的 情况 (程序 名 : 
exam_0503 .R). 
X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 
Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 
source("mean.test2.R") 
mean.test2(X, Y, var.equal=TRUE, side=-1) 
得 到 
mean df T P_value 
1 -3.2 18 -4.295743 0.0002175927 
计算 出 P- 值 是 0.0002176 入 0.05, 故 拒绝 原 假设 ， 即 认为 新 的 操作 方 能 够 提高 
得 率 
如 果 认 为 两 总 体 方差 不 同 ， 则 
> hypothesis.test2(X, Y, side=-1) 





mean df T P_value 
1 -3.2 17.31943 -4.295743 0.0002354815 
仍然 是 拒绝 原 假设 . 


实际 上 , 利用 区 间 估 计 也 可 以 作假 设 检验 ,例如 ,利用 两 个 总 体 均值 差 的 区 
间 估 计 作 假设 检验 ， 
#### 调用 两 个 总 体 均 值 差 的 区 间 估 计 函 数 
> source("interval_estimate5.R") 
#### 作 单 侧 区 间 估计 ， 并 认为 两 总 体 方差 相同 


> interval_estimate5(X, Y, var.equal=TRUE, side=-1) 





mean df a b 


1 -3.2 18 -Inf -1.908255 
#### 作 单 侧 区 间 估 计 ， 并 认为 两 总 体 方差 不 同 


> interval_estimate5(X,Y, side=-1) 





mean df a b 


1 -3.2 17.31943 -Inf -1.905500 
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无 论 是 认为 两 样本 方差 相同 ， 还 是 认为 两 样本 方差 不 同 ， 其 均值 差 的 上 限 估 
计 均 < 0, 也 就 是 说 1 一 jw2 < 0, 即 jr <] 


在 RR 软件 中 ， 函 数 t.test() 也 可 以 作 双 样本 检验 ， 其 使 用 格式 为 
t.test(x, y = NULL, 


alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 


其 中 x，y 是 来 自 两 总 体 数据 构成 的 向 量 ，alternative 是 备 择 假设 ,two .sided 
( 缺 省 ) 表示 双边 检验 (Hi : 1 关 J2), less 表示 单 边 检验 (Hi : Hi < 12), greater 
表示 单 边 检 验 (i : Ji > 12). var.equal 是 逻辑 变量 ， var .equal=TRUE 表示 
认为 两 样本 方差 相同 ; var .equal=FALSE( 缺 省 ) 表示 认为 两 样本 方差 不 同 . 
用 t.test() 函数 对 上 例 进 行 计算 . 
> t.test(X, Y, var.equal=TRUE, alternative = "less'") 
Two Sample t-test 

data: X and Y 
t = -4.2957, df = 18, p-value = 0.0002176 
alternative hypothesis: true difference in means is less than 0 
95 percent confidence interval: 

-Inf -1.908255 
sample estimates: 
mean of x mean of y 


76 .23 79 .43 


从 计算 结果 可 以 看 到 ，t.test() 不 但 可 以 作 两 个 总 体 的 均值 检验 ， 还 可 以 
作 两 个 总 体 均 值 差 的 区 间 佑 计 ， 其 计算 结果 与 我 们 编程 的 计算 结果 相同 . 这 一 点 
可 以 很 好 地 帮助 我 们 理解 t.test() 函数 的 功能 与 计算 过 程 . 

结合 单个 总 体 的 均值 检验 ， 发 现 t.test() 函数 ， 可 以 作 单 、 双 总 体 的 均值 
检验 ， 还 提供 了 均值 的 区 间 佑 计 ， 完成 均值 检验 与 估计 的 全 部 工作 . 

事实 上 , 均值 的 区 间 估 计 与 均值 的 假设 检验 本 质 上 是 对 一 个 问题 从 两 个 不 同 
角度 的 讨论 ， 有 着 内 在 的 联系 ， 这 也 就 是 为 什么 t.test() 将 区 间 估 计 与 假设 检 
验 放 在 一 起 的 原因 ， 可 以 使 我 们 从 多 角度 对 问题 进行 判断 ， 提 高 判断 的 准确 性 . 
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3. 成 对 数据 的 t 一 检验 

如 有 果 数 据 是 成 对 出 现 的 , 即 (Xi, 于 )，(i 二 1,2,…,n), 则 认为 用 成 对 t=- 检验 
要 优 于 双 样 本 均值 检验 . 所 谓 成 对 三 检验 就 是 令 2; = 和 一 中 (i 二 1,2,……,n)， 
对 2 作 单 样本 均值 检验 . 例如， 对 于 例 5.3 中 的 数据 就 应 作成 对 三 检验 . 
> X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 
> Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 
> t.test(X-Y, alternative = "less'") 

Une Sample t-test 
data: X-Y 
t = -4.2018, df = 9, p-value = 0.001150 
alternative hypothesis: true mean is less than 0 
95 percent confidence interval: 
-Inf -1.803943 

sample estimates: 
mean of x 


-3.2 
同样 说 明 ， 新 方法 优 于 标准 方法 ， 但 它 计算 的 一 值 更 小 ， 说 明 判 断 更 可 靠 . 


5.2.2 正 态 总 体 方差 的 假设 检验 
1. 单个 总 体 的 情况 
设 入 ,Xo,… ,Xn 是 来 自 总 体 X ~ NU ac”) 的 样本 ， 其 检验 问题 为 


双边 检验 : Ho: o2=0, Hi: o2#07, 
单 边 检验 Ho: o*<os, Hi: o>o, 
单 边 检验 II Ho: o>03, Hi: oo < ol. 
分 均值 4 已 知 和 均值 人 未知 两 种 情形 讨论 . 
AR 
当 均 值 / 是 已 知 时 ， 当 Fo 为 真 时 , 令 人 = 二》,(Xi 一 四 ”, 则 有 








X 这 (5.12) 
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因此 用 x 来 确定 拒绝 域 ， 即 当 
双边 检验 : x Xl 六 汪 大 出， 
单 边 检 验 x > 守 (n)， 
单 边 检 验 I x < Xia(n). 
则 认为 Ho 不 成 立 . 
当 均 值 1 是 未 知 时 ， 当 五 0 为 真 时 ， 有 


nom1)s? 
Y= ~ vn-1), (5.13) 
0 


因此 用 x 来 确定 拒绝 域 ， 即 当 





双边 检验 : 过 X22(n 一 1) 或 x< Xi_a2(n 二 让 
单 边 检验 从 >X2 人 一 1 
单 边 检验 I 这 <x? sn 一 1) 

则 认为 Ho 不 成 立 . 

与 均值 检验 相同 ,在 计算 中 仍 用 PP 一 值 的 大 小 来 判断 是 否 拒 绝 Ho. 当 P- 值 
小 于 a, 则 拒绝 Ho; 否则 不 拒绝 Ho. 关于 P 一 值 的 计算 方法 与 均值 检验 的 方法 
相同 . 

根据 公式 (5.12) 和 公式 (5.13) 写 出 总 体 均值 已 知 和 均值 未 知 两 种 情况 方差 
检验 的 R 程序 (程序 名 var.test1.R), 在 程序 中 调用 P- 值 计算 程序 . 

var.test1i<-function(x, sigma2=1, mu=Inf, side=0)1{ 

source("P_value.R") 
n<-length (x) 
if (mu<Inf){ 
S2<-sum( (x-mu) “2)/n; df=n 
} 
elset{ 
S2<-var(x); df=n-1 
} 
chi2<-df*S2/sigma2; 
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P<-P_value(pchisq, chi2, paramet=df, side=side) 
data.frame(var=S2, df=df, chisq2=chi2, P_value=P) 
le 
在 上 述 程 序 中 , 输入 值 x 是 数据 构成 的 向 量 . sigma2 是 原 假设 00. mu 是 均 
值 ， 当 已 知 时 , 输入 相应 的 值 ， 程 序 采用 自由 度 为 的 x? 检验， 否则 ( 缺 省 )， 
程序 采用 自由 度 为 n 一 1 的 x 检验 . side 是 指 双边 检验 还 是 单 边 检验 ， 输 入 
side = 0 (或 缺 省 ), 程序 作 双 边 检 验 ， 其 备 择 假设 为 ，o” 关 00; 输入 side = -1 
(或 < 0 的 值 ), 程序 作 单 边 检 验 ， 其 备 择 假设 为 ， c”< oo; 输入 side = 1 (或 
> 0 的 值 ), 程序 作 单 边 检验 ， 其 备 择 假设 为 0? > ol. 
程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 : 方差 (var), 自由 度 (df), 统计 量 
(chisq2), 和 P- 值 . 
例 5.4 从 小 学 五 年 级 男 学 生 中 抽取 20 名 , 测量 其 身高 (单位 厘米 )， 其 数据 如 
下: 
136 144 143 157 137 159 135 158 147 165 
158 142 159 150 156 152 140 149 148 155 


以 a 二 0.05 作假 设 检验 : 


(1) Ho: 14=149, Hi: yA 149; 
(2) Ho: o2=75, Hi: o2#75. 





解 : 输入 数据 , 用 上 面 编写 的 程序 , 就 方差 已 知 和 方差 未 知情 况 作 均值 检验 ， 
就 均值 已 知 和 均值 未 知 的 情况 作 方差 检验 . 

#### 用 scan() 函数 读数 据 

> X<-scan() 

1: 136 144 143 157 137 159 135 158 147 165 

11: 158 142 159 150 156 152 140 149 148 155 

21: 

Read 20 items 

#### 调用 均值 检验 函数 mean.test1 


> source('"mean.test1.R'") 
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#### 认为 方差 已 知 ， 作 均值 检验 
> mean.test1i(X, mu=149, sigma=sqrt(75)) 
mean df Zz Pvalue 


1 149.5 20 0.2581989 0.7962534 
#### 认为 方差 未 知 ， 作 均值 检验 
> mean.test1(X, mu=149) 
mean df T Pvalue 
1 149.5 19 0.2536130 0.8025186 
#### 调用 均值 检验 函数 var.test1 
> source('"var.test1.R") 
4### 认为 均值 已 知 ， 作 方差 检验 
> var.test1i(X, sigma2=75, mu=149) 


Var df chisq2  P_value 


1 74.1 20 19.76 0.9460601 
#### 认为 均值 未 知 ， 作 方差 检验 


> var.test1(X, sigma2=75) 
var df chisdq2  P_value 


1 77.73684 19 19.69333 0.8264785 
无 论 是 哪 种 方法 ， 其 P 一 值 均 大 于 0.79, 因此 接受 原 假设 . 
2. 两 个 总 体 的 情况 


设 Xi1, 从 2， 人 A 是 来 自 总 体 X~ N(n1,07) 的 样本 ， Yr Y2， 人 0 是 来 
自 总 体 Y ~ N(j2,03) 的 样本 ， 且 两 样本 独立 ， 其 检验 问题 为 


、 2 2 2 / 2 
双边 检验 : Ho: of=03, Hi: of#K 03, 
单 边 检验 工 Ho: of<o3, Hi: of>o02, 
单 边 检验 IT Ho: of>03, Hi: of<oz. 


分 均值 Wi, 12 已 知 和 未 知 两 种 情况 讨论 . 


Nl1 Nn2 


本 1 1 
当 ji 与 jw 已 知 时 , 令 侣 = ss — 1), 人 = 2 一 Ha)2, 当 


i=1 i 二 1 
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本 为 真 时 , 
F=3 ~ Fn (5.14) 
02 
因此 用 来 确定 拒绝 域 ， 即 当 
双边 检验 : F> Fo 2(n1, ne2) 或 了 < Fa2(n1, n2), 


单 边 检验 I 了 >> Fo(ni, ma)， 
单 边 检验 I: F< 让 jo(ni,n2). 


则 认为 Ho 不 成 立 . 
当 jn 与 2 未知 时 ， 当 Ho 为 真 ， 有 
91 
32 


因此 用 FF 来 确定 拒绝 域 ， 即 当 


双边 检验 : Fr> Fo (ni 一 了 722 一 1) 或 F< Pi_a2(N1 一 了 722 一 1), 
单 边 检 验 工 及 过 Fa(nai 一 172 一 ])， 
单 边 检验 II: rr < Fi_a(n1 一 二 ， 722 一 1). 


则 认为 Ho 不 成 立 . 
根据 公式 (5.14) 和 公式 (5.15) 写 出 均值 已 知 和 均值 未 知 两 种 情况 方差 比 检 
验 的 及 程序 (程序 名 : var.test2.R ). 
var.test2<-function(x, y, mu=c(Inf, Inf), side=0){ 
source("P_value.R") 
ni<-length(x); n2<-length(y) 
if (all(mu<Inf)){ 
Sx2<-sum( (x-mu[1]) “2)/ni; Sy2<-sum((y-mu[2]) “2)/n2 
df1=n1; df2=n2 
} 
elset{ 
Sx2<-var (x); Sy2<-var(y); df1=n1-1; df2=n2-1 
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r<-Sx2/Sy2 

P<-P_value(pf, r, paramet=c(df1, df2), side=side) 

data.frame(rate=r, dfi=df1, df2=df2, F=r, P_value=P) 
} 


在 程序 中 ，x，y 是 来 自 两 总 体 的 数据 向 量 . mu 是 均值 ， 当 均值 已 知 时 , 采 
用 上 自由 度 为 (ni,ma) 的 下 -分布 计算 下 值 ; 否则 ， 采 用 上 自由 度 为 (ni 一 1,n2 一 1) 
的 到- 分 布 计算 FF 值 . side 是 指 双边 检验 还 是 单 边 检验 . 当 side = 0 作 双 
边 检 验 ， 其 备 择 假设 为 。 of 头 02; 当 side < 0 作 单 边 检 验 ， 其 备 择 假设 为 : 
of < 02; 当 side > 0 作 单 边 检验 ， 其 备 择 假设 为 ， cl > o2. 

输出 采用 数据 框 形 式 ， 输 出 的 变量 有 : 方差 比 rate, 第 一 自由 度 df1, 第 二 
自由 度 df2,F 值 和 P- 值 . 
例 5.5 试 对 例 5.3 中 的 数据 假设 检验 


2 起 这 2 2 
Ho . O1 二 Oo2， Hi . O1 天 02. 


解 : 输出 数据 ， 调 用 var.test2() 函数 

> X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 

> Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 

> source('"var.test2.R") 

> var.test2(X,Y) 

rate df1 df2 F  P_value 

1 1.494481 9 9 1.494481 0.5590224 
PP 一 值 为 0.559 > 0.05, 因此 ， 无 法 拒绝 原 假设 ， 认 为 两 总 体 的 方差 是 相同 的 . 
这 也 说 明 在 例 5.3 中 ,假设 两 总 体 方差 相同 是 合理 的 . 

用 两 总 体 方差 比 的 区 间 估 计 也 能 作 样 本 的 方差 检验 . 

#### 调用 方差 的 区 间 估 计 函 数 interval_var4 


> source("interval_var4.R'") 


#### 作 方 差 比 的 区 间 佑 计 ， 考 虑 均值 未 知 的 情况 
> interval_var4(X, Y) 

rate df1i df2 a b 
1 1.494481 9 9 0.3712079 6.016771 
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由 于 方差 比 1 在 所 佑 计 的 区 间 内 ， 因 此 认为 方差 是 相同 的 ， 


在 R 软件 中 ， var.test() 函数 提供 作 方 差 比 的 检验 和 相应 的 区 间 佑 计 . 
该 函数 的 使 用 格式 是 


var.test(x, y, ratio = 1, 





alternative = c('"two.sided", "less", "greater'"), 
conf.level = 0.95, ...) 
其 中 x,y 是 来 自 两 样本 数据 构成 的 向 量 ， ratio 是 方差 比 的 原 假设 ， 缺 省 值 为 
1. alternative 是 备 择 假设 ， two.sided 表示 双边 检验 (Hi : o?/02 ratio)， 
less 表示 单 边 检验 (Hi : of/03 < ratio), greater 表示 单 边 检验 (Hi :of/02 > 
ratio). 
下 面 用 var .test() 函数 计算 例 5.5. 
> var.test (X,Y) 
F test to compare two variances 
data: X and Y 
F = 1.4945, num df = 9, denom df = 9, p-value = 0.559 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.3712079 6.0167710 
sample estimates: 
ratio of variances 
1 .494481 
与 我 们 前 面 的 计算 结果 是 完全 相同 的 . 后 面 还 将 介绍 直接 用 var.test() 作 双 总 
体 方差 比 的 检验 或 方差 比 的 区 间 估 计 . 这 个 例子 也 使 我 们 可 以 更 清楚 的 了 解 函数 
var.test() 的 计算 过 程 . 


5.2.3 ”二 项 分 布 总 体 的 假设 检验 


前 面 介绍 的 是 正 态 总 体 的 假设 检验 问题 , 这 里 介绍 非 正 态 总 体 的 检验 问题 . 
关于 非 正 态 总 体 的 检验 有 很 多 ， 这 里 只 介绍 二 项 分 布 的 假设 检验 问题 . 

类 似 于 正 态 分 布 ， 我 们 也 可 以 推导 出 二 项 分 布 的 统计 量 和 所 服从 的 分 布 ， 导 
出 相应 的 佑 计 值 (点 估计 和 区 间 佑 计 ), 以 及 相应 的 假设 检验 方法 .这 里 我 们 仅 给 
出 R 软件 中 关于 二 项 分 布 检验 和 个 计 的 函数 binom.test(). 
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binom.test() 函数 的 使 用 方法 是 : 
binom.test(x, n, p = 0.5， 
alternative = c('"two.sided", "less", "greater'"), 
conf.level = 0.95) 
其 中 x 是 成 功 的 次 数 ， 或 是 一 个 由 成 功 数 和 失败 数 构成 的 二 维 向 量 . n 是 试验 
总 数 ， 当 x 是 二 维 向 量 时 ， 此 值 无 效 . p 是 原 假设 的 概率 . 
例 5.6 有 一 批 蔬 菜 种 子 的 平均 发 芽 率 po = 0.85, 现 随 机 抽取 500 粒 ， 用 种 衣 剂 
进行 浸种 处 理 ， 结 果 有 445 粒 发 芽 ， 试 检验 种 衣 剂 对 种 子 发 芽 率 有 无 效果 . 
解 : 根据 题 意 ， 所 检验 的 问题 为 : 


Ho :p= po = 0.85, Hi:pApo. 


调用 binom.test() 函数 ， 
> binom.test(445,500,p=0.85) 
EXact binomial test 
data: 445 and 500 
number of successes = 445, number of trials = 500, p-value = 0.01207 
alternative hypothesis: true probability of success is not equal to 0.85 
95 percent confidence interval: 
0.8592342 0.9160509 
sample estimates: 
probability of success 
0.89 
PP 一 值 = 0.01207 < 0.05, 拒绝 原 假设 ,认为 种 衣 剂 对 种 子 发 芽 率 有 显著 效果 ， 
从 区 间 倍 计 值 来 看 ， 种 衣 剂 可 以 提高 种 子 的 发 芽 率 . 
我 们 可 作 单 侧 检 验 来 证 实 这 一 结论 . 下面 举 一 个 单 侧 检 验 的 例子 . 
例 5.7 据 以 往 经 验 ， 新 生 儿 染色 体 异常 率 一 般 为 1 多, 某 医院 观察 了 当地 400 名 
新 生 儿 ， 只 有 1 例 染 色 体 异常 ， 问 该 地 区 新 生 儿 染色 体 异 常 是 否 低 于 一 般 水 平 ? 
解 : 根据 题 意 ， 所 检验 的 问题 为 ; 


Ho:p>0.01, Hi:p<0.01. 





调用 binom.test() 函数 ， 
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> binom.test(1, 400, p = 0.01, alternative = "less") 
Exact binomial test 
data: 1 and 400 
number of successes = 1, number of trials = 400, p-value = 0.09048 
alternative hypothesis: true probability of success is less than 0.01 
95 percent confidence interval: 
0.00000000 0.01180430 
sample estimates: 
probability of success 
0.0025 
P 一 值 = 0.09048 > 0.05 = a, 并 不 能 认为 该 地 区 新 生 儿 染色 体 异 常 率 低 于 一 般 
水 平 . 另外 ， 从 区 间 佑 计 值 也 能 说 明 这 一 点 ， 区 间 佑 计 的 上 界 为 0.0118 > 0.01. 
男 一 种 输入 方法 
> binom.test(c(1, 399), p = 0.01, alternative = "less'") 


具有 同样 的 结果 . 


5.3 ”若干 重要 的 非 参 数 检验 


在 统计 推断 问题 中 ， 辱 给 定 或 假定 了 总 体 分布 的 具体 形式 (如 正 态 分 布 ), 只 
是 其 中 含有 若干 未 知 参 数 , 要 基于 来 自 总 体 分 布 对 参数 做 出 估计 或 者 进行 某 种 形 
式 的 假设 检验 ， 这 类 推断 方法 称 为 参数 方法 . 

但 在 许多 实际 问题 中 ， 人 们 往往 对 总 体 的 分 布 知之 其 少 , 很 难 对 总 体 的 分 布 
形式 作出 正确 的 假定 ,最 多 只 能 对 总 体 的 分 布 做 出 诸如 连续 型 分 布 、 关 于 茶点 对 
称 分 布 等 一 般 性 的 假定 . 这 种 不 假定 总 体 分 布 的 具体 形式 ， 尽量 从 数据 (或 样本 ) 
本 里 来 获得 所 需要 的 信息 的 统计 方法 称 为 非 参 数 方法 . 

对 于 非 参数 方法 的 检验 问题 称 为 非 参 数 检验 法 , 它 涉 及 的 范围 很 广 ,这 里 只 
能 介绍 几 种 与 R 软件 有 关 的 、 在 应 用 上 较为 重要 的 检验 法 . 








5.3.1 ”Pearson 拟 合 优 度 x? 检验 


前 面 几 市 介 绍 的 假设 检验 问题 称 为 参数 检验 问题 , 即 事先 认为 样本 分 布 具有 
某 种 指定 的 形式 ,而 其 中 的 一 些 参 数 未 知 , 检验 的 目标 是 关于 某 个 参数 落 在 特定 
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的 范围 内 的 假设 . 这 里 要 介绍 的 是 另 一 类 假设 ,其 目标 不 是 针对 具体 的 参数 ， 而 
是 针对 分 布 的 类 型 . 例如 , 通常 假定 总 体 分 布 具 有 正 态 性 ， 则 “总 体 分 布 为 正 态 ” 
这 一 断言 本 身 在 一 定 场合 下 就 是 可 疑 的 ， 有 符 于 检验 , 

在 第 三 章 ， 我 们 通过 直方 图 、 QQ 图 和 经 验 分 布 图 大 概 描 述 观 测 数据 是 否 
服从 某 种 分 布 ， 这 里 介绍 如 何 用 统计 方法 检验 观测 数据 是 否 服从 某 种 分 布 . 在 第 
三 章 介绍 的 W 正 态 性 检验 和 Kolmogorov-Smirnov 检验 都 属于 拟 合 优 度 检验 . 

1. 理论 分 布 完全 已 知 的 情况 

假设 根据 某 理 论 、 学 说 甚至 假定 ， 某 随机 变量 应 当 有 分 布 已 , 现 对 X 进行 n 
次 观察 ， 得 到 一 个 样本 Xi, X2,.…, Xn, 要 据 以 检验 

Ho : X 具有 分 布 F. 
这 里 虽然 没有 明确 指出 对 立 假设 ,但 可 以 说 ,对立 假设 是 
Hi: 入 不 具有 分 布 a 
本 问题 的 真实 含义 是 估量 实测 数据 与 该 理论 或 学 说 符合 得 怎么 样 , 而 不 在 于 当 认 
为 不 符合 时 ， X 可 能 备 择 的 分 布 如 何 ， 故 问题 中 不 明确 标 出 对 立 假 设 ， 反 而 使 
人 感到 提 法 更 为 贴近 现实 . 
上 述 问 题 的 检验 方法 是 ， 将 数 轴 (一 0o0, co) 分 成 m 个 区 间 : 





























A 一 (一 co, a1), 12 一 [ai， a2), 和 的 ,Tm 一 [lam_1, oo). 
记 这 些 区 间 的 理论 概率 分 别 为 
Pp1, Pp2,* **, Pm, pi= P{X € 1}, i= 1,2,..,m. 


记 ni 为 XXXn 中 落 在 区 间 I 内 的 个 数 ， 则 在 原 假设 成 立 下 ， ni 的 期 

望 值 为 npi;, mu 与 npi 的 差距 (i = 1,2,…,m) 可 视 为 理论 与 观察 之 间 偏 离 的 衡 

量 ， 将 它 结合 起 来 形成 一 个 综合 指标 ; > ci(m 一 npi)”, 其 中 ci > 0 为 适当 的 
这 1 

和 常数， 通常 取 ci = 1/npi, 因此 得 到 统计 量 


~ (ni — nps)? 
K= DA . 
2 i (5.16) 
称 K 为 Pearson x? 统计 量 . Pearson 证 明了 , 在 原 假设 成 立 的 条 件 下 , 当 n 一 co 
时 ， K 依 分 布 收敛 于 自由 度 为 m 一 1 的 x 分布， 在 这 个 基础 上 ，3 引 进 一 个 大 
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样本 检验 :给 定 显 著 性 水 平 a, 当 
K>x (m1) (5.17) 


则 拒绝 原 假设 .这 就 是 Neyman-Pearson 拟 合 优 度 Xx? 检验 . 

这 个 问题 还 可 以 讨论 得 更 细 一 些 ， 按 式 (5.17), 只 要 玉 > X2(m 一 1), 就 否定 
原 假设 ,但 是 一 个 远 远 大 于 Xa(m 一 1) 的 天 与 一 个 只 略 大 于 xa(m 一 1) 的 天 ， 
意义 有 所 不 同 ， 前 者 否定 的 理由 更 强 一 些 ， 为 反映 这 一 点 ， 在 计算 出 值 后 ， 
可 计算 出 P- 值 ， 








P- 值 = Pfx (m1)>K}. (5.18) 


可 将 P- 值 称 为 所 得 数据 与 原 假设 的 似 合 优 度 . 了 一 值 越 大 ， 支 持原 假设 的 证 
据 就 越 强 . 给 定 一 个 显著 性 水 平 a, 当 P- 值 < a, 就 拒绝 原 假设 . 

例 5.8 某 消 费 者 协会 为 了 确定 市 场 上 消费 者 对 5 种 品牌 啤酒 的 喜好 情况 ， 随 机 
抽取 了 1000 名 啤酒 爱好 者 作为 样本 进行 如 下 试验 : 每 个 人 得 到 5 种 品牌 的 啤酒 
各 一 瓶 ， 但 未 标明 牌子 . 这 5 种 啤酒 按 分 别 写 着 4、B、C、D、 马 字 妈 的 
5 张 纸 片 随机 的 顺序 送 给 每 一 个 人 , 表 5.1 是 根据 样本 资料 整理 得 到 的 各 种 品牌 
啤酒 爱好 者 的 频数 分 布 ， 试 根据 这 些 数据 判断 消费 者 对 这 5 种 品牌 啤酒 的 爱好 
有 无 明显 差异 ? 





表 5.1: 5 种 品牌 啤酒 爱好 者 的 频数 
最 喜欢 的 牌子 | A B C D E 


人 数 入 210 312 170 85 223 


解 : 如 果 消 费 者 对 5 种 品牌 啤酒 喜好 无 显著 差异 ， 那 么 ， 就 可 以 认为 喜好 这 
5 种 品牌 啤酒 的 人 呈 均 匀 分 布 ， 即 5 种 品牌 啤酒 爱好 者 人 数 各 占 20%. 据 此 假 


设 ， 





Ho : 喜好 5 种 啤酒 的 人 数 分 布 均匀 . 
按 式 (5.16) 和 式 (5.17) 编写 计算 公式 ， 用 R 软件 计算 . 
> X<-c(210，312，170，85，223) 
> n<-sum(X); m<-length(X) 
> p<-rep(1i/m, m) 
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> K<-sum((X-n*p) “2/(n*p));K 

[1] 136.49 

> Pr<-1-pchisgq(K, m-1);Pr 

[1] 0 
PP 一 值 为 0, 因此， 拒绝 原 假设 ， 认 为 消费 者 对 5 种 品牌 啤酒 的 喜好 是 有 明显 差 
异 . 

我 们 可 以 将 上 述 过 程 编写 成 一 个 程序 进行 计算 ， 实 际 上 ， R 软件 已 完成 了 
此 项 工作 ， 所 提供 的 chisq.test() 函数 可 以 方便 地 完成 此 项 工作 . 我们 只 需 输 
入 

> chisg.test(X) 
就 可 以 得 到 
Chi-squared test for given probabilities 
data: X 
X-squared = 136.49, df = 4, p-value < 2.2e-16 


chisq.test() 函数 的 使 用 格式 为 
chisq.test(x, y = NULL, correct = TRUE， 
p = rep(i/length(x), length(x)), rescale.p = FALSE， 
simulate.p.value = FALSE, B = 2000) 
其 中 x 是 由 观测 数据 构成 的 向 量 或 矩阵 ， y 是 数据 向 量 ( 当 x 为 矩阵 时 ，y 无 
效 ). correct 是 逻辑 变量 ， 表 明 是 否 用 于 连续 修正 ， TRUE( 缺 省 值 ) 表示 修正 ， 
FALSE 表示 不 修正 ， P 是 原 假设 落 在 小 区 间 的 理论 概率 , 缺 省 值 表示 均匀 分 布 . 
rescale.p 是 逻辑 变量 ， 选 择 FALSE( 缺 省 值 ) 时 ， 要 求 输入 的 p 满足 Pi = 1; 
选择 TRUE 时 ， 并 不 要 求 这 一 点 ， 程 序 将 重新 计算 p 值 . simulate.p.value 是 
逻辑 变量 ( 缺 省 值 为 FALSE), 当 为 TRUE, 将 用 仿真 的 方法 计算 P- 值 ， 此 时 ， B 
表示 仿真 的 次 数 . 
例 5.9 用 Pearson 拟 合 优 度 X? 检验 方法 检验 例 3.6 中 学 生成 绩 是 否 服 从 正 态 分 
市. 
解 : 我 们 分 儿 步 进行 ， 然 后 将 这 些 步 又 编写 成 R 程序 进行 计算 . 
第 一 步 ， 先 输入 数据 ， 这 里 用 scan() 函数 . 
第 二 步 : 对 31 名 学 生成 绩 进行 分 组 , 计算 各 组 的 频数 , 其 中 41 = {X < 70}， 
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A = {70<X<80},4s= {80<X<90},44= {90<X<100}. 这 里 调用 
cut () 函数 和 table() 函数 进行 分 组 和 记 数 . 
第 三 步 : 计算 原 假设 ( 正 态 分 布 ) 在 各 小 区 间 的 理论 概率 值 ， 先 计算 学 生成 
绩 的 均值 (mean) 、 标 准 差 (sq), 再 用 pnorm() 计算 理论 概率 . 
第 四 步 ， 作 Pearson x? 检验 . 调用 chisq.test() 函数 . 
下 面 写 出 相应 的 及 程序 (程序 名 :， exam0509 .BR) 
#### 第 一步， 输入 数据 
X<-scan() 
25 45 50 54 55 61 64 68 72 75 75 


78 79 81 83 84 84 84 85 86 86 86 
87 89 89 89 90 91 91 92 100 














#### 第 二 步 ， 分 组 和 记 数 
A<-table(cut (X, br=c(0,69,79,89,100))) 
#### 第 三 步 ， 构 造 理论 分 布 
p<-pnorm(c(70,80,90,100), mean(X), sd(X)) 
p<-c(p[1], p[2]-p[1], p[3]-p[2] ,1-p[L3]) 
#### 第 四 步 ， 作 检验 
chisq.test(A,p=p) 
计算 结果 如 下 : 
Chi-squared test for given probabilities 
data: A 
X-squared = 8.334, df = 3, p-value = 0.03959 
P- 值 = 0.03959 < 0.05, 因此 认为 该 门 课程 的 成 绩 不 服从 正 态 分 布 . 
在 这 个 例子 中 用 到 了 两 个 函数 ， 一 个 是 cut () 函数 ， 另 一 个 是 table() 函 
数 ， 下 面 简单 介绍 这 两 个 函数 的 用 法 . 
cut () 函数 是 将 变量 的 区 域 分 成 奉 干 个 区 间 ， 其 使 用 方法 是 : 
cut(x, breaks, labels = NULL, 








include.lowest = FALSE, right = TRUE, dig.lab = 3, ...) 
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其 中 x 是 由 数据 构成 的 向 量 ， breaks( 简 写 为 br) 是 所 分 区 间 的 端点 构成 的 加 
量 . 
table() 函数 是 计算 因子 合并 后 的 个 数 ， 其 使 用 方法 是 ; 


table(..., exclude = c(NA, NaN), dnn = list.names(...), 





deparse.level = 1) 
这 里 用 这 两 个 函数 计算 随机 变量 落 在 茶 个 区 间 的 频数 . 
例 5.10 大 麦 的 杂交 后 代 关 于 芒 性 的 比例 应 是 无 芒 : 长 芒 : 短 芒 二 9:3:4. 实 
际 观测 值 为 335 : 125 : 160. 试 检验 观测 值 是 否 符 合理 论 假 设 ? 
解 : 根据 题 意 ， 


9 3 4 


Ho: 一 ”一 一 一 ”一 -一 一 一 一 . 
0 Dp1 16， p2 ， 03 


调用 chisq.test() 郴 数 
> chisq.test(c(335, 125, 160), p=c(9,3,4)/16) 

Chi-squared test for given probabilities 
data: c(335, 125, 160) 
X-squared = 1.362, df = 2, p-value = 0.5061 
PP 一 值 = 0.5061 > 0.05, 接受 原 假设 ， 即 大 麦 芷 性 的 分 离 符 合 9 :3 :4 的 比例 . 
例 5.11 为 研究 电话 总 机 在 某 段 时 间 内 接 到 的 呼叫 次 数 是 否 服从 Poisson 分 布 ， 
现 收集 了 42 个 数据 ， 如 表 5.2 所 示 ， 通过 对 数据 的 分 析 ， 问 能 否 确 认 在 某 段 时 
间 内 接 到 的 呼叫 次 数 服从 Poisson 分 布 (a = 0.1)? 


表 5.2: 电话 总 机 在 某 段 时 间 内 接 到 的 呼叫 次 数 的 频数 
接 到 呼唤 次 数 0 1 2 3 4 5 6 
出 现 的 频数 7 10 12 8 3 2 0 


解 : 编写 相应 的 计算 程序 (程序 名 :exam0511.R) 
#### 输入 数据 
X<-0:6; Y<-c(7, 10, 12, 8, 3,2,0) 

#### 计算 理论 分 布 ， 其 中 mean(rep(X,Y)) 为 样本 均值 
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q<-ppois(X, mean(rep(X,Y))); n<-length(Y) 
p[L1i]j<-gq[1]; pln]<-1-q[n-1] 
for (i in 2:(n-1)) 
p[i]<-q[i]-q[i-1] 
#### 作 检 验 
chisq.test(Y, p=p) 
但 计算 结果 会 出 现 痪 告 . 
Chi-squared test for given probabilities 
data: 了 
X-squared = 1.5057, df = 6, p-value = 0.9591 
Warning message: 
Chi-squared 近似 算法 有 可 能 不 准 in: chisq.test(Y, p = p) 
为 什么 会 出 现 这 种 情况 呢 ? 这 是 因为 Pearson X” 检验 要 求 在 分 组 后 ， 每 组 
中 的 频数 至 少 要 大 于 等 于 5, 而 后 三 组 中 出 现 的 频数 分 别 为 3, 2, 0, 均 小 于 5. 解 
决 问题 的 方法 是 将 后 三 组 合成 一 组 ， 此 时 的 频数 为 5, 满足 要 求 .下面 给 出 相应 
的 R 程序 . 
#### 重新 分 组 








Z<-c(7, 10, 12, 8,5) 

#### 重新 计算 理论 分 布 

n<-length(Z2); p<-pli:n-1]; pln]<-1-q[n-1] 
#### 作 检 验 

chisq.test(Z, p=p) 





计算 得 到 
Chi-squared test for given probabilities 
data: Zz 
X-squared = 0.5389, df = 4, p-value = 0.9696 
P- 值 > 0.1, 因此 ， 能 确认 在 某 段 时 间 内 接 到 的 呼叫 次 数 服从 Poisson 分 

布 . 

从 例 5.11 的 结果 可 以 看 出 ， 在 习题 4.9 中 ， 将 在 某 段 时 间 内 接 到 的 呼叫 次 
认为 数 服从 Poisson 分 布 是 合理 的 . 


268 第 五 章 假设 检验 


2. 理论 分 布依 赖 于 若干 个 未 知 参数 的 情况 

如 果 分 布 族 依赖 次 于 7 个 参数 01, 02,.*:, 0, 要 根据 样本 X1, X22, , Xn 去 
检验 假设 

H:xX 的 分 布 属于 {F(z, 01， 0», 0,)}. 

解决 这 个 问题 的 步骤 是 ， 先 通过 样本 作出 (01, 92,… ,0;) 的 极 大 似 然 估计 

(91, 92,…,0,) 再 检验 假设 
HH:xX 有 分 布 F(x,0,0,,...,0,). 

然后 再 按理 论 分 布 已 知 的 情况 进行 处 理 ， 所 不 同 的 是 由 式 (5.16) 得 到 的 统计 量 
KK 服从 自由 度 为 m 一 1 一 7 的 x? 分布 ， 即 自由 度 减 少 了 7. 


5.3.2 ”Kolmogorov-Smirnov 检验 


在 第 三 章 描述 性 统计 中 ， 介 绍 了 Kolmogorov-Smirnov 检验 ， 该 检验 实际 上 
是 属于 拟 合 优 度 检验 . 这 里 再 进出 一 步 介绍 它 的 使 用 方法 . 

Kolmogorov-Smirnov 检验 有 单 样本 检验 和 双 样 本 检验 ， 在 第 三 章 中 我 们 介 
绍 的 就 是 单 样本 检验 的 使 用 方法 . 

1. 单 样本 检验 

通过 第 三 章 的 介绍 ,我们 知道 Kolmogorov-Smirnov 检验 是 通过 经 验 分 布 与 
假设 分 布 的 上 确 界 来 构造 统计 量 的 ， 因此 理论 上 可 以 检验 任何 分 布 , 即 原 假设 为 

Ho : X 具有 分 布 F. 

R 软件 提供 了 Kolmogorov-Smirnov 检验 的 函数 ks .test(), 我 们 用 例子 进 
一 步 说 明 它 的 使 用 方法 . 
例 5.12 对 一 台 设 备 进 行 寿命 检验 ， 纪 录 10 次 无 故障 工作 时 间 ， 并 按 从 小 到 大 
的 次 序 排列 如 下 : (单位 小时) 

420 500 920 1380 1510 1650 1760 2100 2300 2350 
试用 Kolmogorov-Smirnov 检验 方法 检验 此 设备 无 故障 工作 时 间 的 分 布 是 否 服 从 
入 一 1/1500 的 指数 分 布 ? 

解 : 输入 数据 ， 调 用 ks .test() 函数 . 
> X<-c(420，500，920，1380，1510，1650，1760，2100，2300，2350) 
> ks.test(X, "pexp", 1/1500) 
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One-sample Kolmogorov-Smirnov test 
data: X 


D = 0.3015, p-value = 0.3234 

alternative hypothesis: two.sided 

其 P- 值 大 于 0.05, 无 法 拒绝 原 假设 ,因此 认为 此 设备 无 故障 工作 时 间 的 分 布 服 
从 入 = 1/1500 的 指数 分 布 . 


2. 双 样 本 检验 

假设 Xi X2， …, X 为 来 自分 布 为 了 (x) 总 体 的 样本 ， 且 (x) 未 知 ， 六 i， 
了 3, ……, Yi 为 来 自分 布 为 G(X) 总 体 的 样本 ， 且 G(x) 未 知 . 假定 了 P(x) 和 G(x) 
均 为 连续 分 布 函数 ， 检 验 这 两 分 布 是 否 相 同 ， 即 原 假设 为 
例 5.13 假定 从 分 布 函数 为 未 知 的 F(Z) 和 G(X) 的 总 体 中 分 别 抽 出 25 个 和 20 
个 观察 值 的 随机 样本 ， 其 数据 由 表 5.3 所 示 ， 现 检验 F(z) 和 G(z) 是 否 相 同 . 





表 5.3: 抽 自 不 同 分 布 的 数据 
0.61 0.29 0.06 0.59 -1.73 -0.74 0.51 -0.56 0.39 


1.64 0.05 —0.06 0.64 一 0.82 0.37 1.77 1.09 ”一 1.28 
2.36 1.31 1.05 —0.32 一 0.40 1.06 一 2.47 

2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.44 
1.50 一 0.30 0.66 2.31 3.29 ”一 0.27 一 0.37 0.38 0.70 
0.52 一 0.71 





解 : 编写 相应 的 计算 程序 (程序 名 exam0513 .B). 
#### 输入 数据 
X<-scan() 
0.61 0.29 0.06 0.59 -1.73 -0.74 .51 -0.56 0.39 
1.64 0.05 -0.06 0.64 -0.82 0.37 1.77 1.09 -1.28 
2.36 1.31 1.05 -0.32 -0.40 1.06 -2.47 














OO 
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Y<-scan() 
2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.44 
1.50 -0.30 0.66 2.31 3.29 -0.27 -0.37 0.38 0.70 
0.52 -0.71 


#### 作 KK-S 检验 
ks.test(X, Y) 


Two-sample Kolmogorov-Smirnov test 

data: X and Y 
D = 0.23, p-value = 0.5286 
alternative hypothesis: two.sided 
PP 一 值 大 于 0.05, 故 接受 原 假设 Ho, 即 认 为 F(z) 和 G(x) 两 个 分 布 函 数 相同 . 

Kolmogorov-Smirnov 检验 与 Pearson x? 检验 相 比 ， Kolmogorov 检验 不 须 
将 样本 分 组 ， 少 了 一 个 任意 性 ， 这 是 其 优点 . 其 缺点 是 只 有 用 在 理论 分 布 为 一 维 
连续 分 布 且 分 布 完全 已 知 的 情形 ， 适 用 面 比 Pearson 检验 小 .研究 也 显示 : 在 
Kolmogorov 检验 可 用 的 场合 下 ， 其 功效 一 般 来 说 略 优 于 Pearson 检验 . 





5.3.3 ” 列 联 表 数 据 的 独立 性 检验 


设 两 个 随 要 变量 X,Y 均 为 离散 型 的 ， X 取 值 于 {a1, a2,…,ar}, Y 的 取 
值 于 {01, bo2， “*')， by}. 设 (Xi1, 到)， (X,, Y), TS (Xn， Y,) 为 简单 样本 ， 记 Tij 为 
(Xi1, Y), (Xs, Y), ey (Xn， Y;,) 中 等 于 (Qi b;) 的 个 数 ， 要 据 此 检验 假设 
万: 和 与 了 独立 ， 
1. Pearson x? 检验 
在 求解 问题 时 , 常 把 数据 列 为 表 5.4 的 形式 , 称 为 列 联 表 (contingency table). 


记 


P{Xi = i, Y; = b;}, 


J I 
PW = 0 = > Wy bi; 一 P(Y=b}= py 


j=1 i=1 


Pij 


Pi. 
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表 5.4: 列 联 表 
Ds 
Q1 N1. 
Q2 72. 
QT NI. 
2 
则 假设 五 可 表示 为 


I J 
i=1 et 


参数 Di., (i = 1, 2， 一 了 )， 刀 . 放 (i 二 1, 2, “*")， J) 的 拟 合 优 度 检验 问题 . 因此 ， 需要 
先 用 极 大 似 然 估计 来 估计 pi, 2 得 到 


I 
其 中 ni > nij, nj 三 2 nj. 这 样 就 可 以 计算 Pearson X” 统 计量 
2 一 1 


Dm so 


(i 
nN 
一 1 j=1 Wy 


KK= ~ [nj — n (入 ) 二 
和 二 
然后 再 计算 自由 度 。 (X,Y) 的 什 域 一 共 划 分 成 77 个 集合 ， 但 估计 了 -一些 


pj(j = 1 站 2 …J) 中 未 知 参数 只 有 J 了 一 1 个 ， 故 共有 了 十 7 一 2 个 未 知 参数 ， 而 
KK 的 自由 度 就 为 


2 


A i 
这 样 在 计算 出 值 后 ， 其 拒绝 域 为 


K SX 1) 
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或 计算 其 P-_ 值 
P- 值 =P{C2(C-DU -DTD)> K}. 


当 了 =J7= 2 时 ， 列 联 表 中 只 有 4 个 格子 ， 称 为 “四 格 表 ,这 时 式 (5.20) 简 
单 化 为 


2 
mL(72117222 和 Ni2n21) 
NM.N.IN.2 


K= 
自由 度 为 1. 
chisq.test() 函数 也 可 以 作 独 立 性 检验 ， 只 需 将 列 联 表 数据 写成 矩阵 形式 
即 可 . 
例 5.14 为 了 研究 吸烟 是 否 与 患 肺癌 有 关 ， 对 63 位 肺癌 患者 及 13 名 非 肺癌 总 
者 (对 照 组 ) 调查 了 其 中 的 吸烟 人 数 ， 得 到 2 x 2 列 联 表 ， 如 表 5 所 示 . 


表 5.5: 列 联 表 数 据 
吸烟 60 32 92 
不 吸烟 3 14 
合计 63 106 





解 : 输入 数据 ， 用 chisq.test() 作 检 验 . 
> x<-c(60, 3, 32,11) 
> dim(x)<-c(2,2) 
> chisq.test(x,correct = FALSE) 
Pearson’s Chi-squared test 
data: X 
X-squared = 9.6636, df = 1, p-value = 0.001880 
或 带 连 续 校正 . 
> chisg.test(x) 


Pearson’s Chi-squared test with 
Yates’ continuity correction 
data: xX 


X-squared = 7.9327, df = 1, p-value = 0.004855 
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无 论 是 哪 种 方法 ， 其 已- 值 均 小 于 0.05, 因此 拒绝 原 假设 ， 也 就 是 说 吸烟 与 
患 肺癌 有 关 . 
例 5.15 在 一 次 社会 调查 中 ， 以 问卷 方式 调查 了 总 共 901 人 的 年 收入 及 对 工作 的 
满意 程度 ， 其 中 年 收入 4 分 为 小 于 6000 元 、 6000 元 至 15000 元 、 15000 元 
至 85000 元 及 超过 25000 元 四 档 ， 对 工作 的 满意 程度 B 分 为 很 不 满意 、 较 不 满 
意 、 基 本 满意 和 很 满意 四 档 ， 调查 结果 用 4 x 4 列 联 表 表示 ， 如 表 5.6 所 示 . 


表 5.6: 工作 满意 程度 与 年 收入 列 联 表 
很 不 满意 较 不 满意 基本 满意 很 ; 


< 6000 
6000 ~ 15000 
15000 ~ 25000 

> 25000 


合计 





解 : 输入 数据 ， 用 chisq.test() 作 检 验 . 
x<-scan() 
20 24 80 82 22 38 104 125 
13:28 .81 118 7 18 54 92 


dim(x)<-c(4,4) 
chisq.test (x) 

Pearson’s Chi-squared test 
data: xX 


X-squared = 11.9886, df = 9, p-value = 0.2140 
其 已- 值 均 大 于 0.05, 接受 原 假设 ， 即 工作 的 满意 程度 与 年 收入 无 关 . 
在 用 chisq.test() 函数 作 计 算 时 ， 要 注意 单元 的 期 望 频数 . 如 果 没 有 空 单 
元 (所 有 单元 频数 都 不 为 零 ), 并 且 所 有 单元 的 期 望 频数 大 于 等 于 5, 那么 Pearson 
X” 检验 是 合理 的 ， 否 则 计算 机 会 显示 警告 信息 . 
如 果 数 据 不 满足 x? 检验 的 条 件 时 ， 应 使 用 Fisher 精确 检验 . 
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2. Fisher 精确 的 独立 检验 
在 样本 较 小 时 (单元 的 期 望 频数 小 于 4), 需要 用 Fisher 精确 检验 来 作 独 立 性 


IY. 

Fisher 精确 检验 最 初 是 针对 2 x 2 这 种 特殊 的 列 联 表 提 出 的 . 当 x? 检验 的 
条 件 不 满足 时 ， 这 个 精确 检验 是 非常 有 用 的 . ”Fisher 检验 是 建立 在 超 几何 分 布 
的 基础 上 ， 对 于 单元 频数 小 的 表 来 说 ， 特 别 适合 . 

这 里 不 再 推导 相关 的 统计 量 ， 而 是 直接 绘 出 R 软件 关于 Fisher 精确 检验 的 
方法 . 
例 5.16 某 医师 为 研究 乙肝 免疫 球 蛋 白 预 防 胎 儿 宫 内 感染 HBV 的 效果 ， 将 33 
例 了 BsAg 阳性 孕妇 随机 分 为 预防 注射 组 和 对 照 组 ， 结 果 由 表 5.7 所 示 . 问 两 组 
新 生 几 的 HBV 总 体感 染 率 有 无 差别 ? 





表 5.7: 两 组 新 生 儿 HBYV 感染 率 的 比较 
组 别 阳性 ”阴性 
预防 注射 组 
对 照 组 


合计 





解 : 有 一 个 单元 频数 小 于 5, 应 该 作 Fisher 精确 概率 检验 . 
在 R 软件 中 ， 函 数 fisher.test() 作 精 确 概率 检验 .其 使 用 方法 是 
fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, 
control = list(), or = 1, alternative = "two.sided", 
conf.int = TRUE, conf.level = 0.95) 
其 中 x 是 具有 二 维 列 联 表 形 式 的 窍 阵 或 是 由 因子 构成 的 对 象 ，y 是 由 因子 构成 的 
对 象 , 当 x 是 矩阵 时 , 此 值 无 效 ，workspace 的 输入 值 是 一 整数 , 其 整数 表示 用 于 
网 络 算法 工作 空间 的 大 小 ，hybrid 为 逻辑 变量 ，FALSE( 缺 省 值 ) 表示 精确 计算 概 
率 ，TRUE 表示 用 混合 算法 计算 概率 .， alternative 为 备 择 , 有 '"two.sided"( 缺 
省 值 ) 双边 ，"less" 单 边 小 于 ，"greater" 单 边 大 于 . conf .int 逻辑 变量 ， 
当 conf ,int=TRUE( 缺 省 信 ), 给 出 区 间 估计 ， conf .1evel 为 置信 水 平 ， 缺 省 什 
为 0.95. 其 余 参 数 见 在 线 说 明 . 
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对 于 2 x 2 列 联 表 ， 原 假设 “两 变量 无 关 ” 等 价 于 赔 率 比 (odds rate) 等 于 1. 
输入 数据 ， 并 计算 Fisher 检验 
> x<-c(4,5,18,6); dim(x)<-c(2,2) 
> fisher.test (x) 
Fisher’s Exact Test for Count Data 
data: X 
p-value = 0.1210 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.03974151 1.76726409 
sample estimates: 
odds ratio 


0.2791061 

因为 P- 值 = 0.1210 > 0.05, 且 区 间 估 计 得 到 的 区 间 包 含有 1, 因此 说 明 两 
变量 是 独立 的 ， 即 认为 两 组 新 生 儿 的 HBV 总 体感 染 率 无 差别 . 

如 果 用 Pearson x? 检验 (chisq.test() 函数 ) 对 这 组 数据 作 检 验 时 ， 你 会 
发 现 计 算 机 在 得 到 结果 的 同时 ， 给 出 警告 ， 认 为 其 计算 值 可 能 有 误 . 

用 Fisher 精确 检验 (fisher.test() 函数 ), 对 例 5.14 的 数据 作 检验 ， 得 到 
> x<-c(60, 3, 32, 11); dim(x)<-c(2,2) 
> fisher.test (x) 

Fisher’s Exact Test for Count Data 
data: X 
p-value = 0.002820 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
1.626301 40.358904 

sample estimates: 
odds ratio 


6.74691 


其 P- 值 小 于 0.05, 因此 拒绝 原 假设 ， 即 认为 吸烟 与 患 肺癌 有 关 ， 由 于 赔 率 比 大 
于 1, 因此 还 是 下 相关， 也 就 是 说 ， 吸 烟 越 多 ， 上 患 肺 瘤 的 可 能 性 也 就 越 大 . 
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3. McNemar 检验 


McNemar 检验 虽然 不 是 独立 性 检验 ， 但 它 是 关于 列 联 表 数 据 的 检验 ， 所 以 
放 在 这 里 来 处 理 . 

McNemar 检验 是 在 相同 个 体 上 的 两 次 检验 ， 检 验 两 无 数据 的 两 个 相关 分 布 
的 频数 比 变 化 的 显著 性 . 

如 果 作 为 样本 的 一 批 个 体 分 别 在 某 一 时 间 间 隔 或 不 同 条 件 下 作 两 次 研究 , 比 
如 是 关于 二 元 特征 的 强度 ， 那么 确定 研究 的 不 再 是 独立 的 样本 , 而 是 相关 样本 . 
每 个 试验 单元 可 提供 一 对 数据 . 从 第 一 次 到 第 二 次 研究 中 ， 两 种 选择 的 频数 比率 
有 或 多 或 少 的 改变 .McNemar 检验 是 检验 这 个 变化 强度 ， 它 能 较 精确 地 得 知 在 
第 一 次 和 第 二 次 研究 之 间 有 多 少 个 体 从 这 一 类 变 成 另 一 类 . 我 们 可 以 得 出 具有 第 
一 次 研究 划分 出 的 两 类 和 第 二 次 研究 划分 出 的 两 类 的 列 联 表 ， 如 图 5.8 所 示 . 





表 5.8: 不 同方 法 的 研究 结果 

研究 I 全 1 
(0h 
C 


b Q 十 
da c+d 
本 ET 


问题 的 原 假 设 为 
Ho : 在 这 个 总 体 中 两 次 研究 的 频数 没有 区 别 . 

原 假设 表示 频数 5 和 < 只 表示 在 这 个 样本 中 的 随机 变 差 . 

在 R 软件 中 ， mcnemar.test() 函数 给 出 了 McNemar 检验 ， 其 具体 的 使 用 
方法 是 

mcnemar.test(x, y = NULL, correct = TRUE) 
其 中 x 是 具有 二 维 列 联 表 形 式 的 窍 阵 或 是 由 因子 构成 的 对 象 .，y 是 由 因子 构成 
的 对 象 ， 当 x 是 矩阵 时 ， 此 值 无 效 . correct 是 逻辑 变量 ， TRUE ( 缺 省 值 ) 表示 
在 计算 检验 统计 量 时 用 连续 修正 ， FALSE 是 不 用 修正 . 
例 5.17 某 胸 科 医院 同时 用 甲 、 乙 两 种 方法 测定 202 份 痰 标本 中 的 抗 酸 杆 菌 ， 结 
果 如 表 5.9 所 示 . 问 甲 、 乙 两 法 的 检 出 府 有 无 差别 ? 
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表 5.9: 甲 、 乙 两 法 检测 痰 标本 中 的 抗 酸 杆 菌 结果 


四 法 合计 
74 
到 128 

合计 202 





解 : 输入 数据 ， 调 用 mcnemar .test() 函数 作 McNemar 检验 . 
> X<-c(49, 21, 25, 107); dim(X)<-c(2,2) 
> mcnemar.test(X,correct=FALSE) 
McNemar’s Chi-squared test 
data: XX 
McNemar’s chi-squared = 0.3478, df = 1, p-value = 0.5553 
其 统计 量 为 0.3478, P 一 值 为 0.5553 > 0.05, 因此 ， 不 能 认定 两 种 检测 方法 





5.3.4 ”符号 检验 


1. 检验 一 个 样本 是 否 来 自 某 个 总 体 


假设 某 个 总 体 的 中 位 数 为 Mo, 如 果 样 本 中 位 数 M = Wo, 我 们 就 接受 样本 
来 自 某 个 总 体 的 假设 . 其 具体 的 检验 方法 是 这 样 的 . 首先 从 每 个 样本 观察 值 中 减 
去 总 体 中 位 数 Mo, 得 出 的 正 、 负 差额 用 正 (十 ) 、 负 (一 ) 号 加 以 表示 . 如 果 总 体 
中 位 数 等 于 样本 中 位 数 ， 即 M = Wo, 那么， 样本 观察 值 在 中 位 数 上 、 下 的 数目 
应 各 占 一 半 ， 因 现时 出 现 正 号 或 负 号 的 概率 应 各 占 1/2. 设 样本 容量 为 n, 就 可 以 
用 二 项 分 布 B(n,1/2) 来 计算 出 现 负 号 (或 正 号 ) 个 数 的 概率 ， 从 而 根据 一 定 的 显 
著 性 水 平 a, 作出 是 否 接受 原 假设 Ho : M = Mo 的 判定 . 
例 5.18 联合 国人 员 在 世界 上 66 个 大 城市 的 生活 花费 指数 (以 纽约 市 1996 年 
12 月 为 100) 按 自 小 至 大 的 次 序 排列 如 下 (这 里 北京 的 指数 为 99) : 
66 75 78 80 81 8 82 83 83 83 83 
84 85 85 86 86 86 86 87 87 88 88 
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88 88 88 89 89 89 89 90 90 91 91 
91 91 92 93 93 96 96 96 97 99 100 
101 102 103 103 104 104 104 105 106 109 109 
110 110 110 111 113 115 116 117 118 155 192 
假设 这 个 样本 是 从 世界 许多 大 城市 中 随机 抽样 得 到 的 . 试用 符号 检验 分 析 ， 北京 
是 在 中 位 数 之 上 ， 还 是 在 中 位 数 之 下 . 
解 : 样本 的 中 位 数 (M) 作为 城市 生活 水 平 的 中 间 值 ， 因 此 需要 检验 : 


Ho:M > 99, 万 :AM < 99. 


输入 数据 ， 作 二 项 检验 . 
> X<-scan() 
1: 66 75 78 80 81 81 82 83 83 83 83 
12: 84 85 85 86 86 86 86 87 87 88 88 
23: 88 88 88 89 89 89 89 90 90 91 91 
34: 91 91 92 93 93 96 96 96 97 99 100 
45: 101 102 103 103 104 104 104 105 106 109 109 
56: 110 110 110 111 113 115 116 117 118 155 192 
67: 
Read 66 items 
> binom.test(sum(X>99), length(X), al="1") 
Exact binomial test 
data: sum(X > 99) and length(X) 
number of successes = 23, number of trials = 66, p-value = 0.009329 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4563087 
sample estimates: 
probability of success 


0.3484848 


在 程序 中 ， sum(X>99) 表示 样本 中 大 于 99 的 个 数 . al 是 alternative 的 缩 
写 ，"1" 是 "less" 的 缩写 . 计算 出 的 PP 一 值 小 于 0.05, 拒绝 原 假设 , 也 就 是 说 ， 
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北京 的 生活 水 平 高 于 地 界 中间 水 平 . 注意 ， 单 侧 区 间 佑 计 的 上 界 为 0.4563, 低 于 
0.5, 所 得 的 结论 还 是 拒绝 原 假设 . 


2. 用 成 对 样本 来 检验 两 个 总 体 间 是 否 存在 显著 差异 


符号 检验 法 也 可 用 于 以 成 对 随机 样本 观察 值 来 检验 两 个 总 体 之 间 是 否 存 在 
显著 差异 . 如 果 两 个 总 体 无 显 者 差异 ， 则 两 个 成 对 随机 样本 观察 值 正 、 负 差额 的 
个 数 应 大 体 相等 .假定 一 和 > 0 用 正 号 表示 ， Xi 一 Yi < 0 用 负 号 表示 ， 则 如 
果 两 个 总 体 无 显 显著 差异 ， 那 么 出 现 正 号 和 负 号 的 概率 各 占 1/2. 和 上 面 检验 样 
本 是 否 来 自 某 个 总 体 一 样 ， 可 用 二 项 分 布 B(n,1/2), 根据 一 定 的 显著 性 水 平和 正 
号 (或 负 号 ) 的 个 数 ， 作 出 接受 或 拒绝 两 个 总 体 无 显著 差异 的 判断 . 

例 5.19 用 两 种 不 同 的 饲料 养 猪 ， 其 增 重 情况 如 表 5.10 所 示 . 试 分 析 两 种 饲料 














表 5.10: 不 同 饲料 养 猪 的 增 重 情 次 
2 





对 编号 
饲料 X|25 30 28 23 27 35 30 28 32 29 30 30 31 16 
饲料 Y |19 32 21 19 25 31 31 26 30 25 28 31 25 25 


养 猫 有 无 显著 差异 . 

解 : 采用 成 对 符号 检验 ， 输 入 数据 ， 调 用 binom.test() 作 检 验 . 
> x<-scan() 
1: 25 30 28 23 27 35 30 28 32 29 30 30 31 16 
15: 
Read 14 items 
> y<-scan() 
1: 19 32 21 19 25 31 31 26 30 25 28 31 25 25 
15: 
Read 14 items 
> binom.test(sum(x<y), length(x)) 

Exact binomial test 

data: sum(x < y) and length(x) 


number of successes = 4, number of trials = 14, p-value = 0.1796 
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alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.08388932 0.58103526 
sample estimates: 
probability of success 
0.2857143 

sum(x < y) 表示 样本 X 小 于 样本 了 的 个 数 . 计算 出 的 P 一 值 大 于 0.05, 无 法 
拒绝 原 假设 ,可 以 认为 两 种 饲料 养 猪 无 显著 差异 . 计算 出 的 区 间 佑 计 包 含 0.5, 也 
就 是 说 ， 可 以 认为 X <Y 和 XX 二 Y 的 概率 各 占 1/2, 得 到 的 结论 也 不 无 法 拒绝 
原 假设 ， 两 种 饲料 养 猪 无 显著 差异 . 

在 人 们 的 日 常生 活 中 ,常常 遇 到 很 难 用 数值 确切 表示 的 问题 ， 而 符号 检验 法 
也 可 用 于 这 类 问题 的 研究 ,例如 我 们 要 了 解 消费 者 是 喜欢 咖啡 ， 还 是 喜欢 奶茶 就 
属于 这 一 类 的 问题 . 消费 者 很 难 用 5 表示 对 咖啡 的 爱好 ， 或 者 用 8 表示 对 奶茶 
的 爱好 ,一 般 只 能 表示 某 消费 者 对 咖啡 的 爱好 超过 奶茶 ， 或 者 对 奶茶 的 爱好 超过 
咖啡 ， 或 者 两 者 同样 爱好 . 因而 我 们 可 以 用 符号 检验 法 来 研究 这 一 类 的 现象 . 现 
举例 说 明 这 个 检验 方法 的 具体 应 用 . 
例 5.20 某 饮 料 店 为 了 解 顾客 对 人 饮料 的 爱好 情况 ， 进 一 步 改进 他 们 的 工作 ， 对 顾 
窜 总 欢 咖 啡 还 是 刘欢 奶茶 ， 或 者 两 者 同样 爱好 进行 了 调查 . 该 店 在 某 日 随机 地 机 
取 了 13 名 顾客 进行 了 调查 ， 顾 客 喜 欢 咖啡 超过 奶茶 用 正 号 表示 ， 喜 欢 奶 茶 超 过 
咖啡 用 负 号 表示 ， 两 者 同样 爱好 用 0 表示. 现 将 调查 的 结果 列 在 表 5.11 中 . 试 





表 5.11: 不 同 顾客 的 爱好 情况 


顾客 编号 |1 2 3 4 5 6 7 8 9 10 11 12 13 
喜欢 咖啡 | 1 1 1 1 0 1 1 1 1 1 
喜欢 奶茶 1 1 1 





分 析 顾 客 是 喜欢 咖啡 还 是 喜欢 奶茶 . 

解 : 根据 题 意 可 检验 如 下 假设 : 

Ho : 顾客 喜欢 咖啡 等 于 喜欢 奶茶 古 : 顾客 喜欢 咖啡 超过 奶茶 . 

以 上 资料 中 有 1 人 ( 即 6 号 顾客 ) 表示 对 咖啡 和 奶茶 有 同样 爱好 ,， 用 0 表 
示 ， 因 而 在 样本 容量 中 不 加 计算 ， 所 以 实际 上 n = 12. 如 果 Uo 假设 为 真 ， 即 
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顾客 对 咖啡 和 奶茶 同样 爱好 ， 那 么 会 出 现 x 一 y < 0, 即 负 号 的 概率 为 1/2, 所 以 
出 现 负 号 的 个 数 服 从 二 项 分 布 ， B(12,1/2). 负 叶 个 数 愈 少 ， 说 明 顾 客 喜 欢 咖 啡 
超过 奶茶 的 人 数 愈 多 ， 负 号 个 数 少 到 一 定 程度 就 要 推翻 Ho 假设 ， 而 接受 Hl 假 
设 ， 即 顾客 喜欢 咖啡 超过 喜欢 奶茶 ， 所 以 本 例 属于 单 边 备 择 假设 检验 . 

用 R 软件 进行 计算 ， 显 著 性 水 平 取 a = 0.10， 
> binom.test(3,12,p=1/2, al="1l", conf.level = 0.90) 





Exact binomial test 
data: 3 and 12 
number of successes = 3, number of trials = 12, p-value = 0.073 
alternative hypothesis: true probability of success is less than 0.5 
90 percent confidence interval: 
0.0000000 0.4752663 
sample estimates: 
probability of success 
0.25 
P 一 值 = 0.073 < 0.10, 间 侧 区 间 估 计 为 [0, 0.475], 因此 拒绝 原 假 设 ， 认 为 喜欢 咖 
啡 的 人 超过 喜欢 奶 条 的 人 . 

如 果 显 车 性 水 平定 在 a = 0.05 时 ， 则 不 能 拒绝 原 假 设 ， 只 能 认为 喜欢 咖啡 
和 奶茶 的 人 一 样 多 . 

一 般 来 说 ， 符 号 检验 比 参数 统计 t 检验 法 的 效能 低 ， 特 别 是 正 、 负 符号 所 代 
表 的 差额 的 绝对 值 比较 大 时 ， 表 现 的 更 为 明显 . 

在 符号 检验 法 中 ， 只 计算 符号 的 个 数 ,而 不 考虑 每 个 符号 差 中 所 包含 的 绝对 
值 的 大 小 . 为 了 弥补 这 一 缺点 ， 所 以 在 非 参 数 统计 中 还 要 使 用 其 他 的 检验 方法 . 
5.3.5 ” 秩 统 计量 

前 面 介 绍 了 符号 检验 ， 下 面 介 绍 男 一 中 检验 方法 一 秩 检验 ， 在 介绍 秩 检 验 
之 前 ， 先 介绍 与 秩 检 验 有 关 的 概念 一 秩 统 计量 (rank statistics). 

秩 统 计量 是 在 非 参数 检验 中 有 广泛 应 用 的 统计 量 , 它 的 一 个 重要 的 特性 是 分 
布 无 关 性 (distribution-freeness). 


定义 5.2 设 从 1 从 2， 2 .Am 为 一 组 样本 (不 必 取 自 同一 总 体 )， 将 X1, Xs, 3 
从 小 到 大 排 成 一 列 ， 用 RR; 记 为 Xi 在 上 述 排 列 中 的 位 置 号 ，i 二 1,2,…,n. 称 
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Ri, Ro,…, Rn 为 样本 XX1, XX2,……, Xi 产生 的 秩 统 计量 (rank statistics). 
例 5.21 有 下 列 一 组 样本 


Xl 2 VX3 Ta 5 


人 
解 : 由 此 产生 的 秩 统计 量 及 为 


让 RR FR Ra 证 
3 2 1 5 4 


注意 : 在 上 述 数据 中 zi = z5, 这 时 就 按 自然 顺序 将 zi 排 在 zs 前 面 . 
在 R 软件 中 ， 通 数 rank() 可 以 计算 秩 统计 量 . 如 上 面 的 例子 ， 
> x<-c(1.2，0.8，-3.1，2.0，1.2) 
> rank(x) 
[1] 3.5 2.0 1.0 5.0 3.5 
这 里 并 不 象 人 为 排序 那样 ， 第 一 次 出 现 的 排 在 前 面 ， 而 是 同等 处 理 ， 其 顺序 均 为 
3.5. 这 种 情况 在 计算 统计 量 时 ， 有 时 程序 会 给 出 警告 . 如 果 和 希望 得 到 人 为 规定 的 
排列 次 序 ， 将 第 二 次 出 现 的 值 (zs5) 增加 一 个 很 小 的 值 . 如 
> x<-c(1.2, 0.8, -3.1, 2.0, 1.2+1e-5) 
> rank(x) 
[1] 32154 
这 与 人 工 计 算 的 结果 相同 . 
显然 , 若 样 本 Xi1, Xo,:…, Xn 是 取 自 连续 分 布 总 体 的 独立 同 分 布 样本 , 则 统计 
量 已 , R2,……, RR 的 分 布 是 对 称 等 概率 的 , 即 对 1,2,… ,nn 的 任 一 排列 ,i2,…… ,i 
有 1 
PlR = f= i, Pn = in} = 7 (5.21) 


这 时 ， 及 , R2,…, ,的 分 布 与 总 体 分 布 无 关 . 
5.3.6 ” 秩 相 关 检 验 


秩 相关 检验 是 秩 检 验 的 一 个 重要 应 用 . 在 第 三 章 ， 我 们 介绍 了 Pearson 相关 
检验 ， 它 实际 应 用 在 正 态 分 布 总 体 的 数据 ,这 里 介绍 的 秩 相关 检验 并 不 要 求 所 检 
验 的 数据 来 自 正 态 分 布 的 总 体 . 
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1. Spearman 秩 相 关 检 验 


设 (AD 7), (Xz2, 2),……, (Xn, Yn) 为 取 自 某 个 二 元 总 体 的 独立 样本 ， 要 检验 
变量 X 与 变量 Y 是 否 相 关 . 通常 以 “X 与 》 相互 独立 (不 相关 )” 为 原 假设 ， 
“X 与 了 相关 ”为 备 择 假设 . 

设 mm72 7r 为 由 六 1, 闵 2,…, Xn 产生 的 秩 统 计量 ， 局， R2,…, RR 为 由 
站 ,72，,……, Yn 产生 的 秩 统 计量 ， 则 有 


nN 


= | n+1 =... 让 


i=1 i 二 1 




















定义 5.3 称 





/人 
为 Spearman (斯 皮尔 曼 ) 秩 相关 系数 ， 

当 X 与 了 相互 独立 时 ， (ra rn) 与 (Re Ra 已 ) 相互 独立 时 ， 
已 (rs) = 0. 当头 与 Y》 正 相关 时 ，7s 倾向 于 取 正 值 ; 当 X 与 Y 负 相 关 时 ， rs 
倾 回 于 取 负 值 . 这 样 就 可 以 得 用 rs 的 分 布 来 检验 X 与 》 是 否 独立 . 

可 以 证 明 ， 当 n 较 大 时 ， Vn 一 17s 的 近似 分 布 为 N(0,1). 由 此 可 以 构造 
拒绝 域 和 计算 相应 的 已- 值 ， 当 PP 一 值 小 于 某 一 显著 性 水 平 a 时 ， 则 拒绝 原 假 
设 . 我 们 可 以 根据 问题 构造 单 边 检验 或 双边 检验 . 

R 软件 中 的 检验 函数 cor.test() 可 以 进行 Spearman 秩 相 关 检 验 ， 其 使 用 
方法 为 


cor.test(x, y, 








alternative = c('"two.sided", "less", "greater'"), 
method = "spearman", conf.level = 0.95, ...) 
例 5.22 一 项 有 六 个 人 参加 表演 的 竞赛 ， 有 两 人 进行 评定 , 评定 结果 用 表 5.12 所 
示 ， 试用 Spearman 秩 相 关 检 验方 法 检验 这 两 个 评定 员 对 等 级 评定 有 无 相关 关 
解 : 输入 数据 ， 作 检验 
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表 5.12: 两 位 评判 者 的 评定 成 绩 





参加 者 编号 1 2 3 4 5 6 
甲 的 打分 (X) 1 2 3 4 5 6 
乙 的 打分 (Y) 6 5 4 3 2 1 


> x<-c(1,2,3,4,5,6); y<-c(6,5,4,3,2,1) 
> cor.test(x, y, method = "spearman'") 
Spearman’s rank correlation rho 

data: x and y 

S = 70, p-value = 0.002778 

alternative hypothesis: true rho is not equal to 0 

sample estimates: 
rho 

-1 

由 于 计算 出 的 一 值 小 于 0.05, 因此 拒绝 原 假设 ， 认 为 变量 六 与 了 相关 . 


事实 上 ， 由 于 计算 出 的 7 = 一 1, 表示 这 两 个 量 是 完全 负 相 关 ， 即 两 人 的 结论 有 
关系 ， 但 完全 相反 . 





2. Kendall 相关 检验 


这 里 从 男 一 个 观点 来 看 相关 问题 ,同样 考 上 不 原 假设 Ho : 变量 X 与 了 不 相 
关 ， 和 三 个 备 择 假设 
Hi : 正 或 负 相 关 ” (或 者 )” 正 相关 ” (或 者 )” 负 相关 
引进 协同 的 概念 ， 如 果 乘 积 (Xj 一 Xi)(Y 一 天) > 0, 则 称 对 子 (Xi, 六 ) 及 
(X;, 六 ) 是 协同 的 (concordant) 或 者 说 ， 它 们 有 同样 的 倾向 . 反之 ， 如 果 乘 积 
(Xi 一 和 Xi)( 太 一 玫 ) < 0, 则 称 该 对 子 是 不 协同 的 (disconcordant) ， 令 


1， 如 果 (Xj; 一 Xi;)(Y; 一 】) > 0， 
V(Xi, X;, ,yy) = 4 0 如 果 (X; 一 Xi)(Y; 一 YY)=0,， (5.22) 
一 1， 如果 (Xj; 一 Xi)(Y; 一 3) <0. 
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定义 Kendall ( 肯 达 尔 ) 7 相关 系数 


K Na— Ne 











1<i<7<n 1 
其 中 ne 是 协同 对 子 的 数目 ， na 是 不 协同 对 子 的 数目 .显然 ， 
K=》 VV=n -n=2n— C2. (5.24) 


上 面 定 义 的 个 为 概率 差 
T= P{(X;— Xi)(Y; — Y) >0}— P{(X;— Xi)(Y; — Y) < 0} 


的 一 个 估计 .容易 看 出 ， 一 1 < 个 < 1. 事实 上 ， 当 所 有 对 子 都 是 协同 的 ， 则 
KK = 07, 此 时 ， 宁 = 1. 当 所 有 对 子 都 是 不 协同 的 , 则 天 = 一 C2, 此 时 ， 他 = 一 1. 

设 rra 7n 为 由 XXX 产生 的 秩 统 计量 ， 已 R2,…, Rn 为 由 

五 三 > sign(r; — 7;): sign(Ri — R;). (5.25) 
1<i<j<n 

结合 式 (5.25) 和 式 (5.23), 可 以 计算 出 估计 值 7, 这 样 就 可 以 利用 人? 值 作 检 
验 . 当 了 接近 于 0 时 ， 表 示 两 变量 独立 ; 当 了 大 于 某 一 值 时 ， 表 示 两 变量 相关 
( 正 数 表示 正 相关 ， 负 数 表 示 负 相关 ). 

在 R 软件 中 ，Kendall 相关 检验 仍 有 郴 数 cor .test() 计算 ， 其 计算 方法 与 
Spearman 秩 相 关 检 验 相 同 ， 只 需 将 参数 method 改 成 method = "kendall'. 
例 5.23 某 幼 儿 园 对 9 对 双胞胎 的 智力 进行 检验 ， 并 按 百 分 制 打分 现 将 资料 如 
表 5.13 所 示 . 试用 Kendall 相关 检验 方法 检验 双胞胎 的 智力 是 否 相 关 . 


表 5.13: 9 对 双胞胎 的 得 分 情况 


双胞胎 对 的 编号 2 3 4 5 6 7 8 9 
先 出 生 的 儿童 (XX) 


后 出 生 的 儿童 (Y) 


77 68 91 70 71 85 87 63 





76 64 96 65 80 81 72 60 


解 : 输入 数据 ， 作 检验 
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> X<-c(86, 77, 68, 91, 70, 71, 85, 87, 63) 
> Y<-c(88, 76, 64, 96, 65, 80, 81, 72,，60) 
> cor.test(X, Y, method = "kendall") 
Kendall’s rank correlation tau 

data: X and Y 
T= 31, p-value = 0.005886 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 

tau 
0.7222222 
PP 一 值 小 于 0.05, 拒绝 原 假 设 ， 认 为 双胞胎 的 智力 是 相关 的 ， 而 且 是 正 相 关 

的 . 


5.3.7 ”Wilcoxon 秩 检 验 


1. 对 来 自 一 个 总 体 样本 的 检验 


符号 检验 利用 了 观测 值 和 原 假设 的 中 心 位 置 之 差 的 符号 来 进行 检验 ， 但 是 
已 并 没有 利用 这 些 差 的 大 小 (体现 于 差 的 绝对 值 的 大 小 ) 所 包含 的 信息 ， 不 同 的 
符号 代表 了 中 心 位 置 的 哪 一 边 ， 而 差 的 绝对 值 的 秩 的 大 小 代表 距 中 心 位 置 的 远 
近 ， 如 果 将 两 者 结合 起 来 ， 自 然 比 仅仅 利用 符号 更 有 效 . 这 也 是 下 面 要 介绍 的 
Wilcoxon( 威 尔 科 克 进 ) 符号 秩 检验 (Wilcoxon signed-rank test) 的 宗旨 . 

为 了 弥补 符号 检验 法 之 不 足 , 在 这 里 将 介绍 一 种 在 一 定 程 度 上 考虑 到 样本 观 
察 值 与 总 体 中 位 数 之 间 的 差额 ， 即 |z; 一 Mol|( 其 中 ;= 1,2,…,n) 的 大 小 的 检验 
方法 . 在 这 里 假定 : (1) 总 体 分 布 是 连续 的 ， (2) 总 体 对 其 中 位 数 是 对 称 的 . 这 
样 ， 将 以 上 lz; 一 Mo| 得 到 的 差额 ， 按 递增 次 序 排 列 ， 并 报 据 差额 的 次 序 给 出 相 
应 的 秩 次 RR, 如 差额 绝对 值 最 小 者 给 以 秩 次 1, 次 小 者 给 以 秩 次 2, ……，…… 最 大 
值 给 以 秩 次 n. 再 按 zx; 一 Mo > 0 为 正 秩 次 ， zi 一 Mo < 0 为 负 秩 次 ， 然后 按照 
正 秩 次 和 进行 检验 ， 这 就 是 秩序 和 检验 . 这 种 方法 首先 由 Wilcoxon 提出 的 ， 所 
以 称 为 Wilcoxon 符号 秩 检 验 . 

Wilcoxon 检验 不 仅 考虑 到 每 个 观察 值 比 总 体 中 位 数 Mo 大 还 是 小 ， 而 且 在 
一 定 程 度 上 也 考虑 了 大 多 少 ， 小 多 少 . 在 进行 检验 时 ， 如 果 观 察 值 与 总 体 中 位 数 
的 差额 的 绝对 值 相 等 时 ,就 要 用 平均 秩 次 来 代 奉 . 例如 ，|z 一 Mol = |zx; 一 Mo| = 
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[zx 一 Mol, 首先， 给 以 相应 的 秩 次 为 4 、5 、 6, 其 平均 值 为 5 (R 软件 以 平均 值 
定义 相同 值 的 秩 次 ， 三 个 数据 的 秩 次 均 是 5). 此 外 ， 如 果 zi 一 Mo = 0, 就 将 zx; 
从 观察 数据 中 去 掉 . 


如 果 原 观察 值 的 数目 为 n', 减 去 差额 为 0 的 观察 数据 后 ， 其 样本 数 为 n. 用 
RPR) 表示 正 秩 次 ， W 表示 正 秩 次 的 和 ， 则 Wilcoxon 统计 量 为 


WD (5.26) 
i=1 


因为 1 个 整数 1,2,.…,n 的 总 和 用 Le 而 正 秩 次 总 和 可 以 在 区 
a (0 于) 内 变动 如 果 观 察 信 来 自 中 位 数 为 M 的 某 个 总 体 的 假设 为 
真 ， 那 么 Wilcoxon 检验 统计 量 的 取 值 将 是 秩 次 和 的 平均 数 ， 即 ty 
ee 
这 样 ， 在 一 定 的 显著 性 水 平 ， 便 可 进行 检验 了 . 

及 软件 中 的 wilcox.tets() 函数 可 以 作 Wilcoxon 符号 秩 检 验 ， 其 基本 格式 





为 : 
wilcox.test(x, y = NULL, 
alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, exact = NULL, correct = TRUE， 
conf .int = FALSE, conf.level = 0.95, ...) 


其 中 x,y 是 观察 数据 构成 的 数据 向 量 . alternative 是 备 择 假设 ， 有 单 侧 检 验 
和 双 侧 检验 ， mu 竺 检 参 数 ， 如 中 位 数 jMo. paired 是 逻辑 变量 ， 说 明 变 量 x，y 
是 否 为 成 对 数据 ， exact 是 逻辑 变量 ， 说 明 是 否 精确 计算 P 一 值 ， 当 样本 量 较 
小 时 ， 此 参数 起 作用 ， 当 样本 量 较 大 时 ， 软 件 采 用 正 态 分 布 近 似 计算 P 一 值 . 
correct 是 逻辑 变量 ,说明 是 否 对 一 值 的 计算 采用 连续 性 修正 . conf .int 是 
逻辑 变量 ， 说 明 是 否 给 出 相应 的 置信 区 间 ， 
例 5.24 假定 某 电 池 厂 宣称 该 厂 生 产 的 某 种 型 号 电池 寿命 的 中 位 数 为 140 安培 
小 时 . 为 了 检验 该 厂 生产 的 电池 有 是 否 符合 其 规定 的 标 淮 ， 现 从 新 近 生 产 的 一 批 电 
池 中 抽取 20 个 随机 样本 ， 并 对 这 20 个 电池 的 寿命 进行 了 测试 ， 其 结果 如 下 (学 
位 ， 安 培 小 时 ) : 

137.0 140.0 138.3 139.0 144.3 139.1 141.7 137.3 133.5 138.2 
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141.1 139.2 136.5 136.5 135.6 138.0 140.9 140.6 136.3 134.1 
试用 Wilcoron 符号 秩 检 验 分 析 该 厂 生 产 的 电池 是 否 符 合 其 标准 . 
解 : 根据 题 意 作 如 下 假设 : 

Ho : 电池 中 位 数 M > 140 安培 小 时 ; 

万 : 电池 中 位 数 M < 140 安培 小 时 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> X<-scan() 
1: 137.0 140.0 138.3 139.0 144.3 139.1 141.7 137.3 133.5 138.2 
11: 141.1 139.2 136.5 136.5 135.6 138.0 140.9 140.6 136.3 134.1 
21:: 
Read 20 items 
> wilcox.test(X, mu=140, alternative='"less', 

exact=FALSE, correct=FALSE, conf.int=TRUE) 
Wilcoxon signed rank test 
data: X 
V = 34, p-value = 0.007034 
alternative hypothesis: true mu is less than 140 
95 percent confidence interval: 
-Inf 139.2000 

sample estimates: 
(pseudo)median 


138.2000 


这 里 V = 34 是 Wilcoxon 统计 量 ， P- 值 0.007034 < 0.05, 拒绝 原 假设 ， 即 中 
位 达 不 到 140 安培 小 时 .从 相应 的 区 间 估 计 也 能 得 到 相应 的 结论 . 

上 面 介 绍 了 用 Wilcoxon 符号 秩 检验 方法 检验 一 个 样本 是 否 来 自 某 个 总 体 的 
内 容 . 同样 ， 这 个 方法 也 可 用 于 成 对 样本 的 检验 ， 从 而 说 明 两 个 总 体 是 否 存在 显 
著 差 异 . 
例 5.25 为 了 检验 一 种 新 的 复合 肥 和 原来 使 用 的 肥料 相 比 是 否 显著 地 提高 了 小 麦 
的 产量 ， 在 一 个 农场 中 选择 了 10 块 田地 ， 每 块 等 分 为 两 部 分 ， 其 中 任 指 定 一 部 
分 使 用 新 的 复合 肥料 ， 另 一 部 分 使 用 原 肥料 . 小 麦 成 熟 后 称 得 各 部 分 小 麦 产量 如 
表 5.14 所 示 . 试用 Wilcoron 符号 检验 法 检验 新 复合 肥 是 否 会 显著 提高 小 麦 的 
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表 5.14: 使 用 不 同 肥料 情况 下 小 麦 的 产量 (单位 : 千克 ) 
3 0 





产量 ， 并 与 符号 检验 作 比 较 (a = 0.05). 
解 : 根据 题 意 作 如 下 假设 : 
Ho : 新 复合 肥 的 产量 与 原 肥 料 的 产量 相同 ， 
Hi : 新 复合 肥 的 产量 高 于 原 肥料 的 产量 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> x<-c(459, 367, 303, 392, 310,342, 421, 446, 430，412) 
> y<-c(414，306，321，443，281，301，353，391，405，390) 








> wilcox.test(x, y, alternative = "greater", paired = TRUE) 
Wilcoxon signed rank test 

data: x and y 

V = 47, p-value = 0.02441 


alternative hypothesis: true mu is greater than 0 
PP 一 值 0.02441 < 0.05, 拒绝 原 假设 ， 即 新 复合 肥 能 够 显著 提高 小 麦 的 产量 . 
用 下 述 命令 





> wilcox.test(x-y, alternative = "greater'") 
具有 相同 的 效果 . 
如 符号 检验 计算 
> binom.test(sum(x>y), length(x), alternative = "greater'") 


Exact binomial test 
data: sum(x > y) and length(x) 
number of successes = 8, number of trials = 10, p-value = 0.05469 
alternative hypothesis: true probability of success is greater than 0.5 
95 percent confidence interval: 
0.4930987 1.0000000 


sample estimates: 
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probability of success 
0.8 

P 一 值 0.05469 > 0.05, 无 法 拒绝 原 假设 . 此 结果 表明 , 在 a = 0.05 的 水 平 下 , 就 
所 给 数据 而 言 ， 符 号 检验 还 不 足以 区 分 两 种 肥料 对 提高 小 麦 的 产量 产生 差异 . 

比较 两 个 计算 结果 ， 可 以 发 现 ， Wilcoxon 符号 检验 比 符 号 检验 在 探测 差异 
性 方面 更 有 效 . 

2. 非 成 对 样本 的 秩 次 和 检验 

假定 两 个 非 成 对 样本 的 观察 值 为 X1, XX2,…, Xn， 和 六 ,Y2,……, Yr, 其 样本 
容量 分 别 为 nt 和 n2， 现 要 检验 两 个 随机 样本 来 自 两 个 总 体 的 中 位 数 是 否 相 等 
(如 果 中 位 数 相等 ， 则 认为 两 个 总 体 无 差异 ). 

将 样本 的 观察 值 排 在 一 起 , Xi, 六 2,… ,XX 于 ;了 ,Yiw2; 仍 设 71,T72)…… ,Tn 
为 由 六 GXo 5 六 my 产生 的 秩 贫 计量 oy yw 为 由 YY0 5 Ys 产生 
的 秩 统 计量 ， 则 Wilcoxon-Mann-Whitney 统计 量 定义 为 





1) 
es et -二 第 (5.27) 


类 似 单 一 总 体 的 Wilcoxon 符号 检验 一 样 ， 可 以 通过 统计 量 UV 进行 检验 ,该 检验 
称 为 Wilcoxon 秩 和 检验 . 

R 软件 中 ， 仍 然 是 用 wilcox.test() 完成 Wilcoxon 秩 和 检验 . 
例 5.26 今 测 得 10 名 非 铝 作业 工人 和 7 名 铅 作 业 工 人 的 血 铅 值 ， 如 表 5.15 所 
示 . 试用 Wilcoron 秩 和 检验 分 析 两 组 工人 血 铝 值 有 无 差异 . 


表 5.15: 两 组 工人 的 血 铅 值 (单位 ， 10 一 mmol/DL) 
非 铝 作业 组 | 24 26 29 34 43 58 63 72 87 101 


馈 作 业 组 82 87 97 121 164 208 213 


解 : 根据 题 意 作 如 下 假设 : 

Ho : 两 组 工人 血 铅 无 差异 ， ”Hi : 铅 作业 组 血 铅 高 于 非 铅 作业 组 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> X<-c(24，26，29，34，43，58，63，72，87，101) 
> y<-c(82，87，97，121，164，208，213) 
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#### 不 采用 连续 修正 
> Wilcox.test(x,y,alternatiVve="1ess'" ,exact=FALSE,correct=FALSE) 
Wilcoxon rank sum test 
data: x andy 
W = 4.5, p-value = 0.001449 
alternative hypothesis: true mu is less than 0 
#### 采用 连续 修正 
> wilcox.test(x, y, alternative="less", exact=FALSE) 
Wilcoxon rank sum test with continuity correction 

data: x and y 
W = 4.5, p-value = 0.001698 
alternative hypothesis: true mu is less than 0 

W = 4.5 是 Wilcoxon-Mann-Whitney 统计 量 . 在 上 述 计 算 中 ， 无 论 采 用 连 
续 修 正 ， 要 还 是 不 采用 连续 修正 ， 其 P 一 值 均 小 于 0.05, 因此 拒绝 原 假设 ， 即 铅 
作业 组 工人 血 铅 值 高 于 非 铅 作业 组 的 工人 ， 
例 5.27 为 了 了 解 新 的 数学 教学 方法 的 效果 是 否 比 原来 方法 的 效果 有 所 提高 ， 从 
水 平 相当 的 10 名 学 生 中 随机 地 各 选 5 名 接受 新 方法 和 原 方法 的 教学 试验 , 充分 
长 一 段 时 间 后 ， 由 专家 通过 各 种 方式 (如 考试 提问 等 ) 对 10 名 学 生 的 数学 能 力 
予以 综合 评估 (为 公证 起 见 ， 假 定 专家 对 各 个 学 生 属 于 哪 一 组 并 不 知道 ), 并 按 其 
数学 能 力 由 弱 到 强 排序 ， 结 果 如 表 516 所 示 .， 对 a = 0.05, 检验 新 方法 是 否 比 


表 5.16: 学 生 数 学 能 力 排序 结果 (1) 





原 方法 显著 地 提高 了 教学 效果 . 车 排序 结果 如 表 5.17 所 示 ， 情况 又 如 何 ? 


表 5.17: 学 生 数 学 能 力 排序 结果 (2) 
4 G3 9 10 





292 第 五 章 假设 检验 


解 : 因为 Wilcoxon 秩 和 检验 本 质 只 需 排 出 样本 的 秩 次 ， 而 且 题 目 中 的 数据 
本 喘 就 是 一 个 排序 ， 因 此 可 直接 使 用 . 
> x<-c(3, 5, 7, 9, 10); y<-c(1, 2, 4, 6, 8) 
> wilcox.test(x, y, alternative="greater") 
Wilcoxon rank sum test 
data: x and y 
W = 19, p-value = 0.1111 
alternative hypothesis: true mu is greater than 0 
P- 值 =0.1111 > 0.05, 无 法 拒绝 原 假 设 ， 即 认为 新 的 教学 效果 并 不 显著 优 于 原 
方法 . 
对 于 第 二 种 情况 ， 
> X<-c(4, 6, 7, 9, 10); Y<-c(1, 2, 3, 5, 8) 
> wilcox.test(X, Y, alternative="greater'") 
Wilcoxon rank sum test 
data: X and Y 
W = 21, p-value = 0.04762 


alternative hypothesis: true mu is greater than 0 
PP 一 值 = 0.04762 < 0.05, 拒绝 原 假设 ， 即 认为 新 的 教学 效果 显著 优 于 原 方法 . 


例 5.28 茶 医院 用 茶 种 药物 治疗 两 型 慢性 支气管 炎 患 者 共 216 例 , 疗效 由 表 5.18 
所 示 . 试 分 析 该 药物 对 两 型 慢性 支气管 炎 的 治疗 是 否 相 同 . 


表 5.18: 某 种 药物 治疗 两 型 慢性 支气管 炎 疗效 结果 


疗效 控制 显效 9 无 效 
单纯 型 62 41 14 11 
喘息 型 20 37 16 请 





解 : 我 们 想象 各 病人 的 疗效 用 4 个 不 同 的 值 表示 (1 表示 最 好 ，4 表示 最 差 )， 
这 样 就 可 以 为 这 216 名 病人 排序 ， 因 此 ， 可 用 Wilcoxon 秩 和 检验 来 分 析 问 题 . 
> x<-rep(1:4, c(62, 41, 14,11)); y<-rep(1:4, c(20, 37, 16, 15)) 
> wilcox.test(x, y, exact=FALSE) 
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Wilcoxon rank sum test with continuity correction 
data: x and y 
W = 3994, p-value = 0.0001242 


alternative hypothesis: true mu is not equal to 0 


PP 值 = 0.0001242 < 0.05, 拒绝 原 假设 ， 即 认为 该 药物 对 两 型 慢性 支气管 炎 
的 治疗 是 不 相同 的 ， 因 为 数据 有 结 点 存在 ， 故 无 法 精确 计算 已- 值 ， 其 参数 为 
exact=FALSE. 





本 节 介 绍 了 一 些 重要 的 非 参 数 检验 方法 ， R 软件 还 提供 了 男 外 一 些 非 参 数 
检验 方法 ， 这 里 就 不 一 一 列举 了 . 因为 掌握 了 已 有 的 方法 ， 再 学 习 其 他 方法 就 不 
困难 了 ， 使 用 时 可 通过 在 线 帮助 了 解 其 基本 的 使 用 方法 . 


习题 五 


5.1 正常 男子 血小板 计数 均值 为 225 x 109/ 研 , 今 测 得 20 名 男性 油漆 作业 工人 
的 血小板 计数 值 (单位 : 103/ 工 ) 

220 188 162 230 145 160 238 188 247 113 

126 245 164 231 256 183 190 158 224 175 
问 油漆 工人 的 血小板 计数 与 正常 成 年 男子 有 无 差异 ? 
5.2 已 知 某 种 灯泡 寿命 服从 正 态 分 布 ， 在 某 星期 所 生产 的 该 灯泡 中 随机 柏 取 10 
只 ， 测 得 其 寿命 (单位 :小 时 ) 为 

1067 919 1196 785 1126 936 918 1156 920 948 
求 这 个 星期 生产 出 的 灯泡 能 使 用 1000 小 时 以 上 的 概率 ， 
5.3 为 研究 某 铁 剂 治疗 和 饮食 治疗 营养 性 缺 铁 性 贫血 的 效果 ,将 16 名 患者 按 年 
龄 、 体 重 、 病 程 和 闹 情 相近 的 原则 配 成 8 对 ， 分 别 使 用 饮食 疗法 和 补充 铁 剂 治疗 
的 方法 ， 3 个 月 后 测 得 两 种 患者 血红 蛋白 如 表 55.19 所 示 ， 问 两 种 方法 治疗 后 的 


表 5.19: 铁 剂 和 饮食 两 种 方法 治疗 后 患者 血红 和 蛋白 值 (9/7) 
铁 剂 治疗 组 | 113 120 138 120 100 118 138 123 


饮食 治疗 组 | 138 116 125 136 110 132 130 110 
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患者 血红 蛋白 有 无 差异 ? 
5.4 为 研究 国产 四 类 新 药 阿 卡 波 糖 胶 桔 效果， 某 医 院 用 40 名 厅 型 糖尿 病 病人 
进行 同期 随机 对 照 实验 . 试验 者 将 这 些 病 人 随机 等 分 到 试验 组 ( 阿 卡 波 糖 胶 癌 组 ) 
和 对 照 组 ( 拜 唐 革 胶 吉 组 ), 分 别 测 得 试验 开始 前 和 8 周 后 空腹 血糖 ,前 得 空腹 血 
糖 下 降 值 ， 如 表 5.20 所 示 ,， 能 否认 为 国产 四 类 新 药 阿 卡 波 糖 胶 时 与 拜 唐 革 胶 蜂 
表 5.20: 试验 组 与 对 照 组 空腹 腔 血 糖 下 降 值 mmol/DL) 

试验 组 |-0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 
(n1 一 20) 
对 照 组 


(nz = 20) 


2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40 
3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 
6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00 





对 空腹 血糖 的 降 糖 效果 不 同 ? 

(1) 检验 试验 组 和 对 上 照 组 的 的 数据 是 否 来 自 正 态 分 布 ， 采 用 正 态 性 W 检验 
方法 ( 见 第 三 章 ) 、 Kolmogorov-Smirnov 检验 方法 和 Pearson 拟 合 优 度 xX? 检 
验 ; 

(2) 用 t 一 检验 两 组 数据 均值 是 否 有 差异 ， 分 别 用 方差 相同 模型 、 方 差 不 同 
模型 和 成 对 三 检验 模型 ; 

(3) 检验 试验 组 与 对 照 组 的 方差 是 否 相 同 . 

5.5 为 研究 某 种 新 药 对 抗 凝血 酶 活力 的 影响 ， 随 机 安排 新 药 组 病人 12 例 ， 对 照 
组 病人 10 例 ， 分 别 测定 其 抗 凝血 酶 活力 (单位 ， mm3), 其 结果 如 下 : 

新 药 组 : 126 125 136 128 123 138 142 116 110 108 115 140 

对 照 组 : 162 172 1I7 170 175 152 157 159 160 162 
试 分 析 新 药 组 和 对 照 组 病人 的 抗 凝血 酶 活力 有 无 差别 (Qa = 0.05). 

(1) 检验 两 组 数据 是 否 服从 正 态 分 布 ; 

(2) 检验 两 组 样本 方差 是 否 相 同 ; 

(3) 选择 最 合适 的 检验 方法 检验 新 药 组 和 对 照 组 病人 的 抗 凝血 酶 活力 有 无 差 
别 . 

5.6 一 项 调查 显示 某 城 市 老年 人 口 比重 为 14.7%.， 该 市 老年 研究 协会 为 了 检验 
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该 项 调查 是 否 可靠 ， 随 机 柚 选 了 400 名 居民 ， 发 现 其 中 有 57 人 是 老年 人 ， 问 调 
查 结果 是 否 支 持 该 市 老年 人 口 比重 为 14.7 卿 的 看 法 (a = 0.05). 

5.7 作 性 别 控 制 试验 ， 经 某 种 处 理 后 ， 共 是 锥 鸡 328 只 ， 其 中 公 锥 150 只 ， 母 
锥 178 只 ,试问 这 种 处 理 能 否 增 加 母 锥 的 比例 ? (性 别 比 应 为 1 : 1). 

5.8 Mendel 用 豌豆 的 两 对 相对 性 状 进 行 杂 交 实 验 ， 黄色 圆 滑 种 子 与 绿色 皱 缩 种 
的 豌豆 杂交 后 ， 第 二 代 根 据 自 由 组 合 规律 ， 理 论 分 离 比 为 


9 3 3 1 


黄 圆 : 黄 皱 : 绿 圆 : 绿 镁 :6:16: 了 6 


实际 实验 值 为 : 黄 圆 15 粒 ， 黄 皱 101 粒 ， 绿 圆 108 粒 ， 绿 皱 92 粒 ， 共 556 粒 ， 
问 此 结果 是 否 符合 自由 组 合 规律 ? 
5.9 观察 每 分 钟 进 入 某 商店 的 人 数 X, 任 取 200 分 钟 ， 所 得 数据 如 下 
顾客 人 数 
频数 
试 分 析 ， 能 否认 为 每 分 钟 顾客 数 和 服从 Poisson 分 布 (a = 0.1). 
5.10 观察 得 两 样本 值 如 下 
| -和 


92 68 28 11 1 0 





阐 
试 分 析 ， 两 样本 是 否 来 自 同 一 总 体 (a = 0.05). 


5.11 为 研究 分 娩 过 程 中 使 用 胎儿 电子 监测 仪 对 剖腹 产 率 有 无 影响 ， 对 5824 例 
分 娩 的 经 产妇 进行 回顾 性 调查 ， 结 果 如 表 5.21 所 示 ， 试 进行 分 析 . 


4.98 4.25 059 3.28 7.21 6.55 





表 5.21: 5824 例 经 产妇 回顾 性 调查 结果 


胎儿 电子 监测 仪 | 
剖腹 产 oe 合计 
是 587 
否 5237 
合计 5824 
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5.12 在 高 中 一 年 级 男生 中 抽取 300 名 考察 其 两 个 属性 : BB 是 1500 米 长 跑 ， 
C 是 每 天 平均 锻炼 时 间 ， 得 到 4 x 3 列 联 表 ， 如 表 55.292 所 示 ， 试 对 a = 0.05， 


表 5.22: 300 名 高 中 学 生体 育 锻炼 的 考察 结果 


1500 米 锻炼 时 间 


长 跑 记 录 2 小 时 以 上 1 一 2 小 时 1 小 时 以 下 
5”01’ ~ 5730/ 
5”31’ ~ 6”00’ 
6”01’ ~ 6/30/ 
6”31’ ~ 7”00’ 


合计 





检验 万 与 C 是 否 独立 ， 
5.13 为 比较 两 种 工艺 对 产品 的 质量 是 否 有 影响 ， 对 其 产品 进行 抽样 检查 ， 其 结 
果 如 表 5.23 所 示 .， 试 进行 分 析 . 


表 5.23: 两 种 工艺 下 产品 质量 的 抽查 结果 





合计 
工艺 一 和 
和 10 
合计 17 


5.14 应 用 核 素 法 和 对 比 法 检测 147 例 冠 心病 患者 心脏 收缩 运动 的 符合 情况 ,其 
结果 如 表 5.24 所 示 . 试 分 析 这 两 种 方法 测定 结果 是 否 相 同 . 
5.15 在 某 养 鱼 塘 中 ， 根 据 过 去 经 验 ， 鱼 的 长 度 的 中 位 数 为 14.6cm, 现 对 鱼 塘 中 
鱼 的 长 度 进行 一 次 估 测 ， 随 机 地 从 鱼 塘 中 取出 10 条 鱼 长 度 如 下 : 

13.32 13.06 14.02 11.86 13.58 13.77 13.51 14.42 14.44 15.43 
将 它们 作为 一 个 样本 进行 检验 , 试 分 析 ， 该 鱼 娘 中 鱼 的 长 度 是 在 中 位 数 之 上 ,还 
是 在 中 位 数 之 下 . 

(1) 用 符号 检验 分 析 ; 
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(2) 用 Wilcoron 符号 秩 检 验 . 


5.16 用 两 种 不 同 的 测定 方法 ， 测 定 同一 种 中 草药 的 有 效 成 分 ， 共 重复 20 次 ， 
得 到 实验 结果 如 表 5.25 所 示 . 


表 5.25: 两 种 不 同 的 测定 方法 得 到 的 结果 
48.0 33.0 37.5 48.0 42.5 40.0 42.0 36.0 11.3 22.0 


36.0 27.3 14.2 32.1 52.0 38.0 17.3 20.0 21.0 46.1 
37.0 41.0 23.4 17.0 31.5 40.0 31.0 36.0 5.7 11.5 
21.0 6.1 26.5 21.3 44.5 28.0 22.6 20.0 11.0 22.3 





(1) 试用 符号 检验 法 检验 两 测定 有 无 显著 差异 ， 
(2) 试用 Wilcoron 符号 秩 检验 法 检验 两 测定 有 无 显著 差异 ; 
(3) 试用 Wilcoron 秩 和 检验 法 检验 两 测定 有 无 显著 差异 ; 


(4) 对 数据 作 正 态 性 和 方差 齐 性 检验 ， 该 数据 是 否 作 t 一 检验 ， 如 果 能 ， 了 
作 t 一 检验 ; 


(5) 分 析 各 种 的 检验 方法 ， 试 说 明 哪 种 检验 法 效果 最 好 . 


5.17 调查 某 大 学 学 生 每 周 学 习 时 间 与 得 分 的 平均 等 级 之 间 的 关系 ， 现 抽查 10 
个 学 生 的 资料 如 表 下 : 
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其 中 等 级 10 表示 最 好 ，1 表示 最 差 . 试用 秩 相关 检验 (Spearman 检验 和 Kendall 
检验 ) 分 析 学 习 等 级 与 学 习 成 绩 有 无 关系 . 

5.18 为 比较 一 种 新 疗法 对 某 种 疾病 的 治疗 效果 , 将 40 名 患者 随机 地 分 为 两 组 ， 

每 组 20 人 , 一 组 采用 新 疗法 ， 另 一 组 用 原 标准 疗法 . 经 过 一 段 时 间 的 治疗 后 , 对 
每 个 患者 的 疗效 作 仔 细 的 评估 ， 并 划分 为 差 、 较 差 、 一般 、 较 好 和 好 五 个 等 级 . 

两 组 中 处 于 不 同等 级 的 患者 人 数 如 表 5.26 所 示 .， 试 分 析 ， 由 此 结果 能 否认 为 新 


表 5.26: 不 同方 法 治疗 后 的 结果 





等 级 差 较 差 一 般 较 好 好 
新 疗法 组 0 1 9 7 3 
原 疗 法 组 2 2 11 4 1 


方法 的 疗效 显著 地 优 于 原 疗 法 (a = 0.05)， 
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内 容 简 介 

R 既是 一 种 统计 软件 ， 也 是 一 种 数学 计算 的 环境 ， 因 为 R 并 
不 是 仅仅 提供 者 干 统 计 程 序 , 使 用 者 只 需 指定 数据 库 和 者 干 参数 便 
可 进行 一 个 统计 分 析 ， 而 且 还 可 以 提供 一 些 集成 的 统计 工具 ， 以 及 
可 提供 各 种 数学 计算 、 统 计 计算 的 函数 ， 从 而 使 用 户 能 灵活 机 动 的 
进行 数据 分 析 ， 其 至 创造 出 符合 需要 的 新 的 统计 计算 方法 . 通过 R 
语言 的 许多 内 和 骨 统 计 函 数 ， 读 者 可 以 很 容易 学 习 和 掌握 R 语言 锯 
语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 . 

本 书 既 深入 浅 出 、 通 俗 易 懂 ， 又 从 数理 统计 的 角度 对 R 软件 
进行 科学 、 准 确 和 全 面 的 介绍 ， 不 仅 介 绍 其 基本 用 法 ， 而 且 简 要 介 
绍 一 些 必须 的 专业 知识 青 景 , 以 便 使 读者 能 深刻 理解 该 软件 的 精髓 
和 灵活 、 高 级 的 使 用 技巧 . 此 外 ， 我 们 还 将 介绍 在 工程 技术 、 经 济 
管理 、 社 会 生活 等 各 方面 的 丰富 的 统计 问题 及 其 统计 建 模 方 法 , 通 
过 该 软件 进行 求解 ,使 读者 获得 从 实际 问题 建 模 入 手 、 到 利用 软件 
进行 解答 和 分 析 的 全 面 训 练 . 

本 教材 以 统计 理论 为 基础 ， 按 照 数理 统计 教材 的 章节 顺序 ,在 
讲 明 统计 的 基本 概念 的 同时 ， 以 R 软件 为 辅助 计算 手段 ， 重 点 介 
绍 统计 计算 的 方法 ， 从 而 有 效 地 解决 统计 中 的 计算 问题 . 

本 书 可 作为 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 数 理 统计 课 
程 的 辅导 教材 或 教学 参考 书 ， 也 作为 统计 计算 课程 的 教材 ， 和 数学 
建 模 竞赛 的 辅导 教材 . 
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本 书 既 不 是 一 本 关于 数理 统计 或 统计 计算 的 教科 书 ， 也 不 是 一 本 关于 R 软 
件 使 用 手册 的 教材 ， 而 是 一 本 将 两 者 相 结合 的 教材 或 教科 书 . 

关于 数理 统计 的 教材 或 教科 书 已 非常 多 , 这 类 教材 主要 是 以 数理 统计 的 理论 
为 基础 ， 讲 清 其 理论 、 方 法 与 应 用 背景 ,但 对 于 计算 ， 讲 的 较 少 ， 基 本 是 以 手工 
计算 为 主 ， 目 的 是 为 了 帮助 读者 理解 相应 的 统计 方法 ， 可 操作 性 不 强 . 

关于 统计 计算 的 书 也 有 不 少 ， 目 前 ， 统 计 计 算 的 教材 一 般 是 讲 算法 (这 一 点 
与 数值 分 析 或 计算 方法 差不多 )， 而 没有 相应 的 软件 做 支撑 ， 有 些 内 容 是 数值 分 
析 内 容 的 重复 ， 统 计 味 不 足 . 

结合 软件 讲 统计 的 书 ， 目 前 最 多 的 是 结合 SAS 软件 、 SPSS 软件 .这 类 书 
籍 基本 上 相当 于 软件 使 用 说 明 书 ， 虽 然 谈 到 一 些 统计 概念 ， 但 讲 的 很 少 . 

本 书 的 特点 是 结合 R 软件 来 讲 数理 统计 的 基本 概论 与 计算 方法 ，R 软件 一 
即 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 的 环境 ， 因 为 R 并 不 是 仅仅 提供 者 干 统 
计 程 序 , 使 用 者 只 需 指定 数据 库 和 寿 干 参数 便 可 进行 一 个 统计 分 析 ， 而且 还 可 以 
提供 一 些 集 成 的 统计 工具 ， 以 及 可 提供 各 种 数学 计算 、 统 计 计算 的 函数 ， 从 而 使 
用 户 能 灵活 机 动 的 进行 数据 分 析 ， 甚 至 创造 出 符合 需要 的 新 的 统计 计算 方法 . 通 
过 了 语言 的 许多 内 徐 统 计 函 数 ， 读 者 可 以 很 容易 学 习 和 掌握 R 语言 的 语法 ， 也 
可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 . 

本 教材 的 编写 风格 是 : (1) 以 目前 常见 的 数理 统计 教材 的 内 容 为 基准 ， 首 
先 对 数理 统计 的 基本 概念 、 基 本 方法 作 一 个 简单 、 清 晰 的 介绍 ,在 注重 基础 的 同 
时 ， 侧 重 统计 思想 和 统计 方法 的 介绍 . (2) 以 R 语言 为 主 ， 编 写 相 应 的 计算 程 
序 . 这 部 分 内 容 的 目的 有 两 个 ， 第 一 是 学 习 R 软件 的 编程 方法 ， 和 掌握 R 软件 的 
基本 技巧 . 第 二 是 通过 编程 加 深 对 统计 方法 的 了 解 与 掌握 ， 同时， 还 可 以 通过 编 
程 ， 加 深 对 R 软件 中 相关 函数 的 了 解 . (3) 介绍 相关 的 计算 函数 .针对 许多 统 
计 方 法 ， R 软件 提供 了 大 量 的 相关 计算 函数 ， 使 用 者 只 需 输入 数据 ， 就 可 得 到 
相应 的 结果 . 这 一 部 分 的 写作 重点 是 放 在 对 计算 结果 的 统计 和 解释， 如何 通过 结果 
来 分 析 已 有 的 数据 ， 着 重 掌 握 相 应 的 统计 方法 . 这 些 是 本 教材 最 主要 的 特色 ,也 
是 不 同 于 其 他 与 软件 有 关 的 教材 .本 书 着 重 强 调 统 计 建 模 ， 以 及 如 何 使 用 R 软 
件 得 到 其 计算 结果 和 相应 的 结果 解释 . 

本 书 的 主要 内 容 : 第 一 章 ， 概 率 统 计 的 基本 知识 . 主要 目的 是 复习 统计 的 基 
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本 知识 , 便于 对 后 面 各 章 内 容 的 理解 . 第 二 章 ，R 软件 的 使 用 . 主要 介绍 R 软件 
的 基本 使 用 方法 . 第 三 章 ， 数 据 描述 性 分 析 ， 从 数据 描述 开始 分 析 数 据 ， 主 要 介 
绍 数据 的 基本 特征 ， 如 均值 、 方 差 ， 还 有 与 数据 有 关 的 各 种 图 形 ， 如 直方 图 、 散 
点 图 等 ， 第 四 章 ， 参 数 估计 . 介绍 参数 佑 计 的 基本 方法 ， 如 点 估计 和 区 间 佑 计 . 
着 重 介绍 R 软件 中 与 估计 有 关 的 函数 . 第 五 章 , 假设 检验 . 介绍 假设 检验 的 基本 
方法 ,一 类 是 参数 检验 ， 男 一 类 是 非 参数 检验 ， 非 参数 检验 是 该 章 的 主要 内 容 ， 
重点 介绍 R 软件 中 与 非 参 数 检验 的 各 类 函数 和 使 用 方法 . 第 六 章 ， 回归 分 析 . 介 
绍 回归 分 析 的 基本 方法 ， 着 重 介 绍 回 归 分 析 的 过 程 与 方法 和 如 何 使 用 及 软件 作 
回归 分 析 . 重点 介绍 其 他 教科 书 很 少 讲 到 的 逐步 回归 、 非 线性 回归 的 内 容 . 第 七 
章 , 方差 分 析 . 介绍 单 因素 方差 分 析 、 双 因素 方差 分 析 ， 以 及 正 交 试验 设计 与 方 
差分 析 之 间 的 关系 . 第 八 章 ， 应 用 多 元 分 析 ( 工 ). 介绍 判别 分 析 和 聚 类 分 析 ， 
这 些 内 容 与 判别 和 分 类 有 关 . 第 九 章 ， 应 用 多 元 分 析 (II ). 介绍 主 成 分 分 析 、 
主因 子 分 析 和 典型 相关 分 析 ， 它 是 应 用 多 元 分 析 中 降 维 计算 的 内 容 . 第 十 章 ， 计 
算 机 模拟 . 介绍 与 计算 机 模拟 的 Monte Carlo 方法 ， 以 及 系统 模拟 方法 ， 最 后 介 
绍 模拟 方法 在 排队 论 中 的 应 用 . 

在 学 习 本 书 的 内 容 之 后 ， 你 会 发 现 ， 尽 管 有 些 内 容 的 计算 是 相当 复杂 的 ,但 
使 用 了 R 软件 之 后 ， 这 些 问 题 可 以 很 轻松 地 得 到 解决 . 

本 书 所 编写 的 及 函数 ， 以 及 所 介绍 的 及 函数 均 以 R-2.1.1 版 为 基础 (目前 
的 版 本 是 R-2.3.1, 而 且 大 约 每 3 至 4 个 月 版 本 更 新 一 次 ), 而 且 全 部 程序 均 运 行 
通过 ， 读 者 如 果 需 要 作者 自 编 的 R 程序 ， 可 以 发 电子 邮件 向 作者 索取 ， 邮 件 地 
址 : ”xueyiQ@bjut.edu.cn. 

本 书 是 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 或 专业 人 员 为 解决 统计 计算 问 
题 而 编写 ， 可 以 作为 上 述 专 业 学 生 数 理 统计 课程 的 辅导 教材 或 教学 参考 书 ， 也 作 
为 统计 计算 课程 的 教材 ， 和 数学 建 模 竞赛 的 辅导 教材 . 

由 于 受 编者 水 平 所 限 ， 书 中 一 定 存 在 不 足 甚 至 错误 之 处 ， 欢 迎 读者 不 音 指 
正 ， 我 们 电子 邮件 地 址 是 : ”xueyiQ@bjut.edu.cn ( 薛 儿 ); chenlipingQ@bjut.edu.cn 
( 陈 立 薄 ). 
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第 六 章 ”回归 分 析 


在 许多 实际 问题 中 ， 经 常会 遇 到 需要 同时 考虑 几 个 变量 情况 . 例如 ， 在 电路 
中 会 遇 到 电压 、 电 流 和 电阻 之 间 的 关系 ; 在 炼 钢 过 程 中 会 遇 到 钢水 中 的 碳 含量 和 
钢材 的 物理 性 能 ( 如 强度 、 延 伸 率 等 ) 之 间 的 关系 . 在 医学 上 经 常 测量 人 的 身高 、 
体重 ， 研 究 人 的 血压 与 年 龄 的 关系 等 ， 这 些 变量 之 间 是 相互 制约 的 . 

通常 ， 变 量 间 的 关系 有 两 大 类 : 

一 类 是 变量 间 有 完全 确定 的 关系 ， 可 用 函数 关系 式 来 表示 . 如 电路 中 的 欧姆 
定律 














T=U/R, 
其 中 了 表示 电流 ，U 表示 电压 ， RR 表示 电阻 . 在 前 面 各 章 中 研究 的 确定 性 模型 
就 属于 这 种 情况 . 

男 一 类 是 变量 间 有 一 定 的 关系 , 但 由 于 情况 错综复杂 无 法 精确 研究 ,或 由 于 
存在 不 可 避免 的 误差 等 原因 ， 以 致 它们 的 关系 无 法 用 函数 形式 表示 出 来 . 为 研究 
这 类 变量 之 间 的 关系 就 需要 通过 大 量 试验 或 观测 获得 数据 ,用 统计 方法 去 寻找 它 
们 间 的 关系 ， 这 种 关系 反映 了 变量 间 的 统计 规律 . 研究 这 类 统计 规律 的 方法 之 一 
便 是 回归 分 析 . 

在 回归 分 析 中 ， 把 变量 分 成 两 类 . 一 是 因 变 量 ,它们 通常 是 实际 问题 中 所 关 
心 的 一 些 指标 ， 通 常用 Y 表示 ， 而 影响 因 变 量 取 值 的 男 一 些 变 量 称 为 自 变 量 ， 
它们 用 Xi X2 ,Xp 来 表示 . 

在 回归 分 析 中 研究 的 主要 问题 是 : 

(1) 确定 与 Xi X2 ,Xp 间 的 定量 关系 表达 式 . 这 种 表达 式 称 为 回归 方 
程 . 

(2) 对 求 得 的 回归 方程 的 可 信和 度 进行 检验 . 

(3) 判断 自 变量 Xi(7 = 1 2……D) 对 了 有 无 影响 ， 

(4) 利用 所 求 得 的 回归 方程 进行 预测 和 控制 . 











6.1 一 元 线性 回归 


先 从 最 简单 的 情况 开始 讨论 ， 只 考虑 一 个 因 变 量 与 一 个 自 变量 X 之 间 的 
关系 . 
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6.1.1 ”数学 模型 


通过 一 个 例子 来 说 明 如 何 寻 找 Y 与 XX 间 的 定量 关系 表达 式 . 
例 6.1 由 专业 知识 知道 , 合金 的 强度 了 (kg/mm2) 与 合金 中 矶 含量 和 X(%%) 有 关 . 
为 了 了 解 它 们 间 的 关系 ， 从 生产 中 收集 了 一 批 数据 (Zi,yi), i 二 1,2,……,n, 具体 
数据 见 表 6.1. 





表 6.1: 合金 的 强度 与 合金 中 碳 含量 数据 表 
交合 主 X。 度 了 





0.16 49.0 
0.17 53.0 
0.18 50.0 
0.20 55.0 
0.21 55.0 
0.23 60.0 





为 了 直观 起 见 ， 可 画 一 张 “ 散 点 图 *， 以 X 为 横 坐 标 ，Y 为 纵 坐 标 ， 每 一 数 

















L I I L I I I 
0.10 0.2 0.14 0.16 0.18 0.20 0.22 


X 


图 6.1: 数据 的 散 点 图 与 拟 合 直线 
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在 本 例 中 ,从 散 点 图 上 发 现 ，n 个 点 基本 在 一 条 直线 附近 ， 从 而 可 以 认为 工 
与 XX 的 关系 基本 上 是 线性 的 ， 而 这 些 点 与 直线 的 偏离 是 由 其 它 一 切 不 确定 因素 
的 影响 造成 的 ， 为 此 可 以 作 如 下 假定 : 


Y=Po+i+PX+e, (6.1) 


其 中 ， Bo 十 BiX 表示 和 随 X 的 变化 而 线性 变化 的 部 分 = 是 随机 误差 ， 它 是 
其 他 一 切 不 确定 因素 影响 的 总 和 ， 其 值 不 可 观测 . 通常 假定 ~ N(0,， 07); 称 函 
数 /X) = Bo 十 BIX 为 一 元 线性 回归 函数 ， 6o 为 回归 常数 ， [61 为 回归 系数 ， 
统称 回归 参数 . 称 XX 为 回归 上 自 变 量 (或 回归 因子 )， 称 了 为 回归 因 变 量 (或 响 
应 变量 ). 

若 (Zu 0 (20 (Zn; yn) 是 (X,Y) 的 一 组 观测 值 。 则 一 元 线性 回归 模 
型 (the simple linear regression) 可 表示 为 











Vi=Boi+Prit+e: 1=1,2,...n, (6.2) 
其 中 EB(ei) = 0,var(ei) = 02 1 = 1,2,...7n. 
6.1.2 ”回归 参数 的 估计 


求 出 未 知 参数 66，B1 的 估计 加, 的 一 种 直观 想法 是 要 求 图 6.1 中 的 点 
(zi,%i) 与 直线 上 的 点 (zi 办) 的 偏离 越 小 越 好 ， 这 里 六 = Bo 十 Pixi, 称 为 回归 值 
或 拟 合 值 . 


令 
Nn 


Q(Bo,B1) = (Yi — Po — Bizi)?, (6.3) 
4 一 业 
则 Bo, Bi 的 最 小 二 乘 估计 是 指使 
(0o, 有 一 区 让 QU 0 


成 立 。 经 计算 可 得 





=O =, 加 = 了 -05 (6.4) 


300 第 六 章 回归 分 析 


其 中 


Nn Nn 


1 
Ly Sz Se 和 T 人 


i=1 i=1 


SI 
| 


也 


了 = oo Sw = D-DD 


i=1 i=1 


称 2o, BF 分 别 为 Bo 与 81 的 最 小 二 乘 估计 ， 称 方程 


于 > bo 本 es 
为 一 元 回归 方程 为 (或 称 经 验 回归 方程 ) 
通常 取 
nN 本 站 2 
2 (WwW 一 镶 一 zi) 
和 2 2 一 | 
we 9% 


为 参数 02 的 佑 计量 ， (也 称 为 02 的 最 小 二 乘 估计 ) 可 以 证 明 52 是 02 的 无 人 

估计 ， 即 86? 一 o2 
关于 1 与 Bi 估计 的 方差 为 
va 和 = 人 (+ 二 va- 交 (6.6) 


nN 





如 果 o? 未 知 ， 则 用 5 替换 o, 得 到 


ye 元 2 入 6 
sm) -6/5+ 二 ， aa) = -二 (67) 


称 sd(B80), sd(B1) 分 别 为 bo 与 81 的 标准 差 . 





6.1.3 ”回归 方程 的 显著 性 检验 


从 回归 参数 的 估计 公式 (6.4) 可 知 ， 在 计算 过 程 中 并 不 一 定 要 知道 Y 与 X 
是 否 有 线性 相关 的 关系 ， 但 如 果 不 存 在 这 种 关系 ， 那 么 求 得 的 回 妇 方 程 旱 无 意 
义 . 因此 ， 需 要 对 回归 方程 进行 检验 ， 从 统计 上 讲 ， i 是 B(Y) 随 XX 线性 变化 
的 变化 率 , 者 81 = 0, 则 EE(Y) 实际 上 并 不 随 X 作 线 性 变化 ， 仅 当 Fi 取 0 时 ， 
EB(Y) 才 随 X 作 线性 变化 ,也 仅 在 这 时 一 元 线性 回归 方程 才 有 意义 . 因此 假设 检 
验 为 : 
Ho: B=0, Hi: PK0. 
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通常 采用 三 种 方法 : 
(1) t 检验 法 ， 当 Ho 成 立时 ， 统 计量 


sd(61) 


对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 
pl 浊 
(2) 了 检验 法 。 当 成 立时 ， 统 计量 
二 2 i (6.9) 
对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 


F>F(l,n—2). 





(8) 相关 系数 检验 法 ， 记 及 -本 和 一, 称 及 为 样本 相关 系数 ， 对 于 给 定 
TTIYY 


的 显著 性 水 平 a, 查 相关 系数 临界 值 表 可 得 ra(n 一 2), 则 检验 的 拒绝 域 为 





IR| > ra(n — 2). (6.10) 


当 拒 绝 Ho 时 ， 认 为 线性 回归 方程 是 显著 的 . 

在 R 软件 中 , 与 线性 模型 有 关 的 函数 有 : lm() 、summary() 、anova() 和 
predict() 等 ,我 们 先 用 例子 简单 介绍 其 使 用 方法 ， 最 后 再 给 出 详细 的 介绍 . 
例 6.2 求 例 6.1 的 回归 方程 ， 并 对 相应 的 方程 作 检 验 . 

解 : 利用 R 软件 中 的 lm() 可 以 非常 方便 求 出 回归 参数 加, 名 和 作 相 应 的 检 

相应 的 R 软件 计算 过 程 如 下 : 
> x<-c(0.10, 0.11, 0.12, 0.13, 0.14, 0.15, 
0.16, 0.17, 0.18, 0.20,，0.21,，0.23) 
> y<-c(42.0, 43.5, 45.0, 45.5, 45.0, 47.5, 
49.0，53.0，50.0，55.0，55.0，60.0) 
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> lm.sol<-lm(y ~ 1+x) 
> summary (lm.sol1) 
Call: 


lm(formula =y ~ 1+ x) 


Residuals: 
Min 1Q Median 3Q Max 
-2.0431 -0.7056 0.1694 0.6633 2.2653 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 28.493 1.580 18.04 5.88e-09 *** 
xX 130.835 9.683 13.51 9.50e-08 *** 
Signif. codes: 0 ‘***’ O.001 ‘**’ 0.01 ‘*’ 0.05 ‘.”0.1“ ”1 


Residual standard error: 1.319 on 10 degrees of freedom 
Multiple R-Squared: 0.9481, Adjusted R-squared: 0.9429 
F-statistic: 182.6 on 1 and 10 DF, p-value: 9.505e-08 

在 上 述 操作 中 ， 第 一 行 是 输入 目 变 量 zx, 第 二 行 是 输入 因 变 量 y, 第 三 行 函数 
lm() 表示 作 线 性 模型 ， 其 模型 公式 y “ 1t+x 表示 的 是 y= bo 十 P17 十 6, 第 四 行 
函数 summary() 提取 模型 的 计算 结果 . 

在 计算 结果 的 第 一 部 分 (call) 列 出 了 相应 的 回归 模型 的 公式 .第 二 部 分 
(Residuals:) 列 出 的 是 残 差 的 最 小 值 点 、1/4 分 位 点 ， 中 位 数 点 、3/ 分 4 位 点 
和 最 大 值 点 . 

在 计算 结果 的 第 三 部 分 (Coefficients:) 中 ， Estimate 表示 回归 方程 参 
数 的 估计 ， 即 房 , B.Std，Error ! 表示 回归 参数 的 标准 差 ， 即 sd(/30), sd(D). 
t value 为 t+ 值 ， 即 


bo bo ja PIVDre 


ee 
sd(P0) ”Fi 十 如 sd(B1) 4 


1 这 里 Std. Error 表示 的 是 标准 差 ， 不 是 标准 误 ， 下 同 
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Pr(>1t1) 表示 P- 值 ， 即 概率 值 P{t > |T|}. 还 有 显著 性 标记 ,其 中 *** 说 明 极 

为 显著 ，** 说 明 高 度 显 著 ，* 说 明显 著 ，. 说 明 不 太 显 闭 , 没有 记号 为 不 显著 . 
在 计算 结果 的 第 四 部 分 中 , Residual standard error 表示 残 差 的 标准 差 ， 

即 式 (6.5) 中 的 0, 其 自由 度 为 n 一 2. Multiple R-Squared 为 相关 系数 的 平方 ， 


即 有 
So 





F-statistic 表示 卫 统 计量 ， 即 





其 自由 度 为 (1,n 一 2). p-value 为 P- 值 ， 即 概率 值 P{f > |f|}. 
从 计算 结果 可 以 看 出 回归 方程 通过 了 回归 参数 的 检验 与 回归 方程 的 检验 ， 
此 得 到 的 回归 方程 


入 


Y = 28.493 二 130.835X. 


6.1.4 参数 bo 与 81 的 区 间 估 计 
在 得 到 Bo 与 61 的 估计 房 与 记 后 ， 有 时 还 需要 它们 的 区 间 估 计 , 由 Bo 与 
Bi 的 统计 性 质 可 知 ， 
= 











i t(n—2), = 0,1， (6.11) 
对 给 定 的 置信 水 平 1 一 a, 则 有 
Bi— pb _ 二 
P | sd < ps | =Q, 1=0,1. (6.12) 
因此 ， 6; (i = 0,1) 的 区 间 估 计 为 
| = dt a = 0) bad(O) taa(ns 2)|: (6.13) 


注意 到 ， 在 R 程序 中 ， 线 性 回归 模型 函数 lm() 和 summary() 为 我 们 提供 
了 所 需要 的 值 ， 如 参数 的 估计 值 和 相应 的 标准 差 ， 因 此 ， 可 以 很 容易 地 计算 出 式 
(6.13) 给 出 的 区 间 佑 计 值 . 

编写 相应 的 计算 程序 (程序 名 ， beta.int .R), 并 假设 变量 fm 是 相应 的 拟 合 
模型 . 
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beta.int<-function(fm,alpha=0.05){ 
A<-summary (fm) $coefficients 
df<-fm$df .residual 
left<-A[,1]-A[,2]*qt(1-alpha/2, df) 
right<-A[,1]+A[,2]*qt (1-alpha/2, df) 
rowname<-dimnames (A) [[1]] 
colname<-c("Estimate", "Left", "Right") 
matrix(c(A[,1], left, right), ncol=3, 
dimnames = list(rowname, colname )) 


} 

在 程序 中 ，summary 是 提取 模型 信息 , 返回 值 为 一 列表 , 其 中 $coefficients 
是 由 回归 系数 、 标 准 差 、t 值 和 P- 值 构成 的 怎 阵 . 若 fm 是 由 lm 计算 得 到 回归 
模型 ， 其 中 $df .residual 为 模型 的 自由 度 . left 和 right 是 按 式 (6.13) 计算 
区 间 的 左右 端点 . 

函数 的 返回 值 是 一 矩阵 ， 其 元 素 有 6 的 估计 值 和 相应 的 区 间 估 计 ， 下面 看 
一 个 例子 . 

例 6.3 求 例 6.2 中 参数 B60 和 PB1 的 区 闻 估 计 (a = 0.05). 

解 ， 在 计算 回归 模型 后 (1m.sol), 调用 自 编 函 数 beta_int .R 就 可 以 得 到 

相应 的 区 间 佑 计 . 
> source("beta.int.R") 


> beta.int(lm.sol) 


Estimate Left Right 
(Intercept) 28.49282 24.97279 32.01285 
x 130.83483 109.25892 152.41074 


其 中 Left 是 估计 的 无 区 间 端 点 ， Right 是 估计 的 右 区 间 端 点 . 

从 这 个 例子 可 以 看 出 ， 我 们 不 但 可 以 利用 R 函数 进行 计算 ,还 可 以 通过 及 
函数 的 返回 值 再 计算 ， 得 到 我 们 所 需要 全 部 信息 . 
6.1.5 ”预测 


当 经 过 检验 ， 回 归 方 程 是 有 意义 时 ， 可 用 它 作 预 测 ， 这 里 讲 的 预测 可 以 有 两 
方面 的 意义 ， 一 是 当 给 定 X = zo 时 ， 求 相应 平均 值 B(yo) 的 点 估计 与 其 置信 水 
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平 为 1 一 a 的 区 间 估计 ， 二 是 对 给 定 X = zo 求 yo = fo 十 Bizo 的 预测 值 及 它 的 
概率 为 1 一 a 的 预测 区 间 . 
对 于 闫 == zo, = wo 的 置信 和 度 为 1 一 a 的 预测 区 间 为 





[加 一 5， 加 十 由 (6.14) 
其 中 
厂 2 
1 和 二 5 (6.15) 
即 


Pi{o -li<vy <W+0}=1—a. 


在 实际 问题 中 ， 当 样本 容量 n 很 大 时 ， 对 于 在 3 附近 的 zo, 可 以 得 到 简化 
的 预测 区 间 ， 此 时 (6.15) 式 中 的 根 式 近似 等 于 1. 且 tap( 一 2) s 和 于 是 如 
的 置信 度 为 1 一 a 的 预测 区 间 近 似 地 等 于 


[Do 9 OLa]2, VYo 下 GZo2l. (6.16) 


例 6.4 求 例 6.1 中 X=2o=0.16 时 相应 了 的 概率 为 0.95 的 预测 区 间 . 

解 : 利用 R 软件 中 的 predict() 可 以 非常 方便 求 出 预测 值 与 预测 区 间 . 

下 面 是 R 软件 的 计算 过 程 : 
> new <- data.frame(x = 0.16) 
> lm.pred<-predict(lm.sol, new, interval="prediction", level=0.95) 
> lm.pred 

fit lwr upr 

[1,] 49.42639 46.36621 52.48657 
第 一 行 表示 输入 新 的 点 zo = 0.16, 注意 ， 即 使 就 一 个 点 ， 也 要 采用 数据 框 结构 . 
第 二 行 的 函数 predict() 给 出 相应 的 预测 值 ， 参 数 ijnterval="prediction" 表 
示 同 时 要 给 出 相应 的 预测 区 间 ， 参 数 level=0.95 表示 相应 的 概率 为 0.95. 这 个 
参数 也 可 以 不 写 ， 因 为 它 的 省 缺 值 就 是 0.95. 

由 计算 结果 得 到 预测 值 与 相应 的 预测 区 间 


入 


Y(0.16) = 49.43， [46.37, 52.49]. 
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6.1.6 ”控制 

回归 方程 还 可 用 于 控制 . 设 某 质量 指标 Y 与 某 一 自 变量 X 间 有 线性 相关 关 
系 ， 且 已 求 得 了 线性 回归 方程 了 = Bo 十 所 X， 此 外 ， 当 Ye (yi,y) 为 质量 合 
格 ， 那么 X 应 控制 在 什么 范围 内 才能 以 概率 1 一 a 保证 质量 合格 ?这 便 是 一 个 
控制 问题 ， 其 中 y, y 是 某 种 标准 给 出 的 定 值 . 

控制 可 以 看 成 预测 的 反问 题 ， 即 要 求 观察 值 Y 在 某 一 区 间 (yy) 内 取 值 
时 ， 问 应 将 X 控制 在 什么 范围 内 . 

由 式 (6.16), 构造 不 等 式 


| Y — OZLap2 三 次 PM 





|V 


(6.17) 





和 人 


2 OZaja = bo 加 加 Piz 十 OLa2 全 Yu 


由 不 等 式 (6.17) 得 到 z 的 取 值 范围 作为 控制 X 的 上 下 限 . 为 了 保证 得 到 的 控制 
范围 有 意义 ， yu 和 yi 满足 Yu 一 V1 >> 26Zay2. 


6.1.7 “计算 实例 


这 里 用 Forbes 数据 为 例 ， 全 面 展 示 一 元 回归 模型 的 计算 过 程 . 
例 6.5 Forbes 数据 

在 十 九 世 纪 四 、 五 十 年 代 ， 苏 格 兰 物理 学 家 James D. Forbes, 试图 通过 水 的 
沸点 来 估计 海拔 高 度 , 他 知道 通过 气压 计 测 得 的 大 气压 可 用 于 得 到 海拔 高 度 ， 高 
度 越 高 ， 气 压 越 低 . 在 这 里 讨论 的 实验 中 ， 他 研究 了 气压 和 沸点 之 问 的 关系 ,由 
于 在 当时 ， 运 输 精 密 的 气压 计 相 当 困难 ,这 引起 了 他 研究 此 问题 的 兴趣 ， 测量 沸 
点 将 给 旅行 者 提供 一 个 快速 估计 高 度 的 方法 . 

Forbes 在 阿尔 插 斯 山 及 苏格兰 收集 数据 . 选 定 地 点 后 ， 他 装 起 仪器 ， 测 量 气 
压 及 沸点 . 气压 单位 采用 水 银 柱 高 度 ， 并 根据 测量 时 周围 气温 与 标准 气温 之 问 的 
差异 校准 气压 . 沸点 用 华氏 温度 表示 . 我 们 从 他 1857 年 的 论文 中 选取 了 n= 二 17 
个 地 方 的 数据 ， 见 表 6.2 所 示 . 在 研究 这 些 数据 时 ， 有 若干 可 能 引起 兴趣 的 问 
题 ， 气 压 及 沸点 是 如 何 联系 的 ? 这 种 关系 是 强 是 弱 ? 我 们 能 否 根 据 温 度 预测 气 
压 ? 如 果 能 ， 有 效 性 如 何 ? 

分 析 过 程 

Forbes 的 理论 认为 ， 在 观测 值 范围 内 ， 沸 点 和 气压 值 的 对 数 成 一 直线 . 由 
此 , 取 10 作为 对 数 的 底数 . 事实 上 , 统计 分 析 与 对 数 的 底 是 没有 关系 的 . 由 于 气 
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表 6.2: 在 阿尔 卑 斯 山 及 苏格兰 的 17 个 地 方 沸点 (“F) 及 大 气压 (英寸 未 柱 ) 的 


Forbes 数据 


案例 号 


Oi Oo Dm oo 本 





沸点 
CF) 
194.5 
194.3 
197.9 
198.4 
199.4 
199.9 
200.9 
201.1 
201.4 
201.3 
203.6 
204.6 
209.5 
208.6 
210.7 
211.9 
212;2 


气压 
(英寸 尔 柱 ) 
20.79 
20.79 
22.40 
22.67 
23.15 
23.35 
23.89 
23.99 
24.02 
24.01 
25.14 
26.57 
28.49 
27.76 
29.04 
29.88 
30.06 


log 
(气压 ) 
1.3179 
1.3179 
1.3502 
1.3555 
1.3646 
1.3683 
1.3782 
1.3800 
1.3806 
1.3805 
1.4004 
1.4244 
1.4547 
1.4434 
1.4630 
1.4754 
1.4780 


100 x log 
(气压 ) 
131.79 
131.79 
135.02 
135.55 
136.46 
136.83 
137.82 
138.00 
138.06 
138.05 
140.04 
142.44 
145.47 
144.34 
146.30 
147.54 
147.80 


压 的 对 数据 值 变化 不 大 ， 最 小 值 为 1.318, 而 最 大 的 为 1.478, 因此 将 所 有 气压 的 
对 数值 乘 以 100, 如 表 6.2 中 第 5 列 所 示 . 这 将 不 改变 分 析 的 主要 性 质 的 同时 ， 


避免 研究 非常 小 的 数字 . 


求解 过 程 : 


着 手 进 行 回归 分 析 的 一 个 有 效 途 径 是 ， 画 一 个 变量 对 另 一 变量 的 散 点 图 ， 
它 既 能 用 于 提示 某 种 关系 ， 也 能 用 于 说 明 这 种 关系 可 能 是 不 适当 的 . 在 散 点 图 





中 ，X 轴 为 自 变 量 ， 这 里 是 Forbes 数据 中 的 沸点 ， 


100 x log( 气 压 ). 


7 轴 为 响应 变量 ， 这 里 为 
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输入 数据 ， 画 出 散 点 图 (程序 名 : ”exam0804.R). 
X <- matrix(c( 


194.5, 20.79, 1.3179,，131.79, 


194.3，20.79，1.3179，131.79， 
197.9，22.40，1.3502，135.02， 
198.4，22.67，1.3555，135.55， 
199.4，23.15，1.3646，136.46， 
199.9，23.35，1.3683，136.83， 
200.9，23.89，1.3782，137.82， 
201.1，23.99，1.3800，138.00， 
201.4，24.02，1.3806，138.06， 
201.3，24.01，1.3805，138.05， 
203.6，25.14，1.4004，140.04， 
204.6，26.57，1.4244，142.44， 
209.5，28.49，1.4547，145.47， 
208.6，27.76，1.4434，144.34， 
210.7，29.04，1.4630，146.30， 
211.9，29.88，1.4754，147.54， 
212.2，30.06，1.4780，147.80) ， 


ncol=4, byrow=T, 
dimnames = list(1:17, c("F", "h", "log", "log100"))) 


forbes<-as.data.frame (X) 


plot (forbes$F, forbes$log100) 
Forbes 数据 的 散 点 图 的 总 的 印象 是 ， 这 些 点 基本 上 , 但 并 不 精确 地 ， 落 在 一 
条 直线 上 ， 作 回归 分 析 . 
> lm.sol <- lm(log100 ~ F, data=forbes) 








> summary (lm.sol1) 
得 到 
Call: 
lm(formula = log100 ~ F, data = forbes) 
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Residuals : 
Min 1Q Median 3Q Max 
-0.32261 -0.14530 -0.06750 0.02111 1.35924 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -42.13087 3.33895 -12.62 2.17e-09 *** 
F 0.89546 0.01645 54.45 < 2e-16 *** 


Signif. codes: 0 ’***’ O.001 ?x**’ O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 0.3789 on 15 degrees of freedom 
Multiple R-Squared: 0.995, Adjusted R-squared: 0.9946 
F-statistic: 2965 on 1 and 15 DF, p-value: < 2.2e-16 


由 计算 结果 得 到 


Bo = -42.13087， 记 = 0.89546，sd(B0) = 3.33895，sd(B1) = 0.01645. 


对 应 于 两 个 系数 的 P- 值 均 < 2.17 x 10 ", 是 非常 显著 的 . 

关于 方程 的 检验 , 残 差 的 标准 差 ， $ = 0.3789. 相关 系数 的 平方 ，R? = 0.995， 
关于 一 分布 的 P- 值 < 2.2 x 10 ,也 是 非常 显著 的 . 

该 模型 能 过 上 检验 和 下 检验 . 因此 ， 回 当 方 程 为 








y = —42.13087 + 0.895467. 


我 们 将 得 到 的 直线 方程 画 在 散 点 图 上 . 
> abline (lm.sol) 
得 到 散 点 图 和 相应 的 回归 直线 ， 如 图 6.2 所 示 . 
下 面 分 析 残 差 . 称 
6 一 入 一 让 = 大 一 所 一 bizi i=1,2,..,n 


为 回归 方程 的 残 差 . 
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140 145 
| | 


forbes$log100 


135 
| 











| | | | 
195 200 205 210 


forbes$F 


图 6.2: Forbes 数据 的 散 点 图 与 回归 直线 


在 RR 软件 中 ， 函 数 residuals() 计算 回归 方程 的 残 差 .计算 残 差 ， 并 画 出 
关于 残 差 的 散 点 图 ， 如 图 6.3 所 示 . 


> y.res<-residuals(lm.so1);plot(y.res) 
> text(12,y.res[12] , labels=12,adj=1.2) 


其 中 text (12,y.res[12] ，labels=12,adj=1.2) 是 将 第 12 号 残 差点 标 出 . 


从 图 6.3 可 以 看 到 , 第 12 个 样本 点 可 能 会 有 问题 , 它 比 其 他 的 样本 点 的 残 差 
大 得 多 ， 因 为 其 他 点 的 残 差 的 绝对 值 都 小 于 0.35, 而 此 点 残 差 的 绝对 值 约 为 1.3， 
因此 ， 这 个 点 可 能 不 正确 ， 或 者 模型 的 差 假设 不 正确 ， 或 者 是 o” 不 是 常数 ， 等 
等 . 总之， 需要 对 这 个 问题 进行 分 析 (在 后 面 的 回归 诊断 中 会 详细 介绍 分 析 的 方 
法 ). 

这 里 作 简 单 的 处 理 ， 在 数据 中 ， 去 掉 第 12 号 样本 点 . 
> i<-1:17; forbes12<-as.data.frame(X[i!=12,]) 
> lm12<-lm(log100~*F, data=forbes12) 
> summary (lm12) 
Call: 
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图 6.3: Forbes 数据 残 差 的 散 点 图 


lm(formula = log100 ~ F, data = forbes12) 


Residuals: 
Min 1Q Median 3Q Max 
-0.21175 -0.06194 0.01590 0.09077 0.13042 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -41.30180 1.00038 -41.29 5.01e-16 *** 
F 0.89096 0.00493 180.73 < 2e-16 *** 


Signif. codes: 0 ’***’ O.001 x**’” O.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 0.1133 on 14 degrees of freedom 
Multiple R-Squared: 0.9996 ， Adjusted R-squared: 0.9995 
F-statistic: 3.266e+04 on 1 and 14 DF, p-value: < 2.2e-16 
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在 去 掉 第 12 号 样本 后 ， 回 归 方 程 的 系数 没有 太 大 的 变化 ， 但 系数 的 标准 差 
和 残 差 的 标准 差 有 很 大 的 变化 ， 减 少 了 约 3 倍 左右 ， 相 关系 数 R? 也 有 提高 . 
6.2 及 软件 中 与 线性 模型 有 关 的 函数 
上 面 讲 了 一 元 回归 方程 的 方法 ,在 介绍 多 元 回归 方程 之 前 ， 先 简单 的 介绍 及 


软件 中 ， 与 线性 模型 有 关 的 函数 ， 这 些 函 数 的 大 部 分 在 前 面 已 经 用 到 过 ， 在 后 面 
的 多 元 线性 回归 中 ， 也 经 常会 遇 到 |. 








6.2.1 “基本 函数 
适应 于 多 元 线性 模型 的 基本 函数 是 1m(), 其 调用 形式 是 


fitted.model <- lm(formula, data = data.frame) 
其 中 formula 为 模型 公式 . ”data.frame 为 数据 框 . 返回 值 为 线性 模型 结果 的 
对 象 存放 在 fitted.model 中 . 例如 


fm2 <- lm(y ”xl + x2, data = production) 
适应 于 y 关于 zl 和 72 的 多 元 回归 模型 ( 隐 含 着 截 距 项 ). 
更 一 般 的 形式 为 
lm(formula, data, subset, weights, na.action, 
method = "gr", model = TRUE, x = FALSE， 
y = FALSE, qr = TRUE, singular.ok = TRUE, 
contrasts = NULL, offset, ...) 
其 中 formula 为 模型 公式 . data 为 数据 框 . subset 为 可 选择 向 量 ， 表 示 观 察 
值 的 子 集 ， weights 为 可 选择 向 量 ， 数 据 拟 合 的 权重 其余 见 在 线 帮助 ， 


6.2.2 ”提取 模型 信息 的 通用 函数 


lm() 函数 的 返回 值 称 为 拟 合 结果 的 对 象 , 本质 上 是 一 个 具有 类 属性 值 lm 的 
列表 ， 有 model 、coeffcients 、residuals 等 成 员 . lm() 的 结果 非常 简单 ， 
为 了 获得 更 多 的 信息 ， 可 以 使 用 对 lm() 类 对 象 有 特殊 操作 的 通用 函数 ， 这 些 函 
数 包括 


add1 coef effects kappa predict residuals 
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alias deviance family labels print step 
anova dropl formula plot proj summary 
下 面 简单 地 介绍 函数 的 使 用 方法 . 
(1) anova() 函数 . anova() 函数 的 使 用 格式 为 
anova(object,...) 
其 中 object 是 由 lm 或 glm 得 到 的 对 象 . 其 返回 值 是 模型 的 方差 分 析 表 . 
(2) coefficients() 函数 (简写 形式 为 coef ()). coefficients() 函数 (或 
coef () 函数 ) 的 使 用 格式 为 
coefficients(object, ...) 
coef (object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 的 系数 ， 
(3) deviance() 子 数 . deviance() 函数 的 使 用 格式 为 
deviance(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 的 残 差 平方 和 | 
(4) formula() 函数 . formula() 函数 的 使 用 格式 为 
formula(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 公式 . 
(5) plot () 函数 . plot() 函数 的 使 用 格式 为 
plot(object, ...) 
其 中 object 是 由 lm 构成 的 对 象 ， 绘制 模型 诊断 的 几 种 图 形 ， 显 示 残 差 、 拟 合 
值 和 一 些 诊断 情况 . 
(6) predict() 函数 . predict() 函数 的 使 用 格式 为 
predict(object, newdata=data.frame) 
其 中 object 是 由 lm 构成 的 对 象 。 newdata 是 预测 点 的 数据 ， 它 由 数据 框 形 式 
输入 ， 其 返回 值 是 预测 值 和 预测 区 间 . 
(7) print() 函数 . print() 函数 的 使 用 格式 为 
print(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 显示 模型 拟 合 的 结果 ， 一般 不 用 
print() 而 直接 用 键入 对 象 的 名 称 来 显示 . 
(8) residuals() 函数 . residuals() 函数 的 使 用 格式 为 
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residuals (object, 
type = c("working", "response", "deviance', 
"pearson", "partial"), 

其 中 object 是 由 lm 或 aov 构成 的 对 象 . type 是 返回 值 的 类 型 ， 其 返回 值 是 
模型 的 残 差 . 简单 的 命令 形式 为 resid(object). 

(9) step() 函数 . step() 函数 的 使 用 格式 为 

step(object, ...) 

其 中 object 是 由 lm 或 glm 构成 的 对 象 . 其 返回 值 是 逐步 回归 ,根据 AIC 
(Akaike’s An Information Criterion) 的 最 小 值 选择 模型 . 

(10) summary() 函数 . summary() 函数 的 使 用 格式 为 


summary(object, ...) 


其 中 object 是 由 lm 构成 的 对 象 ， 其 返回 值 是 显示 较为 详细 的 模型 拟 合 结果 ， 





6.3 ”多 元 线性 回归 分 析 


在 许多 实际 问题 中 影响 因 变 量 Y 的 自 变 量 往往 不 止 一 个 ， 通 常设 为 p 个 . 
由 于 此 时 无 法 借助 于 图 形 的 帮助 来 确定 模型 ， 所 以 仅 讨论 一 种 最 简单 但 又 普遍 的 
模型 一 多 元 线性 回归 模型 . 
6.3.1 ”数学 模型 
设 变量 与 变量 Xl, 入 2， 2 Ap 间 有 线性 关系 
Y=P0t+PXit+:*+ HpXptE, (6.18) 


其 中 ~ N(0, co) bo, B1,…, Bp 和 0? 是 末 知 参数 ，p > 2, 称 模型 (6.18) 为 多 
元 线性 回归 模型 . 

设 (Zai, Zi Yip; 妇 )， 1 二 1,2,…,n 是 (Xi,X2,…, Xp, 站) 的 n 次 独立 观 
测 值 ， 则 多 元 线性 模型 (6.18) 可 表示 为 


Yi= Pot+Pizat:t+ Poript ei, 1= 1,2,..,n, (6.19) 





其 中 si € N(0,0”), 且 独 立 同 分 布 . 
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为 书写 方便 ， 常 采用 和 矩阵 形式 ， 令 


Yl1 bo 1 2Z11 212 + Tip E1 

2 D1 1 Zo 022 + Top E2 
dl | aa | | |, := 

Yn bp 1 Tnl Ton *** Xnp En 


则 多 元 线性 模型 (6.19) 可 表示 为 
Y = XP+e, (6.20) 


其 中 YY 是 由 响应 变量 构成 的 mn 维 向 量 ， 六 是 nx (p 十 1) 阶 设计 矩阵，B 是 
2 十 1 维 向 量 ，。 是 n 维 差 向 量 ， 并 且 满 足 


E(e)=0, Var(e)= oh,. 
6.3.2 ”回归 系数 的 估计 
类 似 于 一 元 线性 回归 ， 求 参数 6 的 估计 值 5, 就 是 求 最 小 二 乘 函数 
Q(6) = (y — XH) (y — XP), (6.21) 


达到 最 小 的 6 值 . 
可 以 证 明 6 的 最 小 二 乘 估计 


.0 (6.22) 
从 而 可 得 经 验 回归 方程 为 
yO 
称 6 一 y 一 XP 为 残 差 向 量 . 通常 取 
02=éEE/(n—p—1) (6.23) 
为 o 的 估计 ， 也 称 为 o? 的 最 小 二 乘 估计 ， 可 以 证 明 ; 


五 62 = ao2. 
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可 以 证 明 6 的 方差 估计 为 
Var(8) = oa2(X7X) -1 
相应 的 2 的 标准 差 为 
sd(B;) = Ven, i=0,1,...,p, (6.24) 
其 中 ci 是 C= (XTX)” 对 角 线 上 第 i 个 元 素 2 
6.3.3 ”显著 性 检验 


由 于 在 多 元 线性 回归 中 无 法 用 图 形 帮 助 判断 B(Y) 是 否 随 X1, X2,…, Xp 作 
线性 变化 ， 因 而 显著 性 检验 就 显然 得 尤其 重要 . 检验 有 两 种 ， 一 种 是 回归 系数 的 
显著 性 检验 ， 粗 略 地 说 ， 就 是 检验 某 个 变量 X; 的 系数 是 否 为 0. 男 一 个 检验 是 
回归 方程 的 显著 性 检验 ， 简 单 地 说 ， 就 是 检验 该 组 数据 是 否 适 用 于 线性 方程 作 回 
归 . 


1. 回归 系数 的 显著 性 检验 


Hjo: Db; = 0, Hi: BD; 0, j=0,1,.…,p 
当 Hjo 成 立时 ， 统 计量 
i 
4 0 Cjj 
其 中 co 是 C = (X X) :的 对 角 线 上 第 7 个 元 素 . 对 于 给 定 的 显著 性 水 平 a, 检 
验 的 拒绝 域 为 


人 t(n—p— 1), 7 = 0,1,..……,p. 


(7;| ton —p— 1), j= 0,1,..…,p. 


2. 回归 方程 的 显著 性 检验 








Ho: Bo=i=… 二 B= 二 0， 有 :0,1,…,o 不 全 为 0. 


“为 方便 起 见 ， 认 为 Bo 是 8 的 第 0 个 元 素 下 标 比 从 0 开始， 下 同 
“通常 的 教科 书 不 考虑 fo 的 检验 , 但 由 于 R 软件 可 以 提供 bo 的 检验 情况 , 所 以 这 里 7 从 
0 开始 ， 下 同 
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当 Ho 成 立时 ， 统 计量 


SSR/P 


I SSg/(n—p—1) 


Sy Flp,n—p— 1), 


其 中 


SSR = 》 (%-D, SSg = 》 (一 你 ?， 


i=1 i=1 


1 、 
7 2 Yi = Pot+ Pizat :+ Pprip: 
i=1 





通常 称 SS 为 回归 平方 和 ， 称 SS 为 残 差 的 平方 和 . 
对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 


F>F,(p,n—p—1). 


相关 系数 的 平方 定义 为 
_ S58 
SSr’ 
用 它 来 衡量 Y 与 Xi XX2,…,X, 之 间 相 关 的 密切 程度 ， 其 中 S57 为 总 体 离 差 平 


方 和 ， 即 5Sz = > (yi 一 四. 并 且 满 足 


i=1 


R? 








ST = SHE + ONR. 


例 6.6 根据 经 验 , 在 人 的 身高 相等 的 情况 下 ,血压 的 收缩 压 Y 与 体重 Xi (千克 让 
年 龄 X? (岁数 ) 有 关 . 现 收集 了 13 个 男子 的 数据 ， 见 表 6.3. 试 建立 了 关于 
1, Xo 的 线性 回归 方程 . 
解 : R 软件 中 的 lm() 同样 可 以 求 出 回归 系数 ， 并 作 相 应 的 检验 . 
下 面 是 R 软件 的 计算 过 程 
> blood<-data.frame( 
X1=c(76.0, 91.5, 85.5, 82.5, 79.0, 80.5, 74.5, 
79.0，85.0，76.5，82.0，95.0，92.5)， 
X2=c(50，20，20，30，30，50，60，50，40，55， 
40，40，20) ， 
Y= c(120，141，124，126，117，125，123，125， 
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入 2 Y 
50 125 
40 132 
55 123 
40 132 
40 155 
20 147 





132，123，132，155，147) 


) 
> lm.sol<-lm(Y ~ X1+X2，data=blood) 
> summary (lm.so1) 
Call: 
lm(formula = Y ~ Xi1 + X2, data = blood) 


Residuals: 
Min 1Q Median 3Q Max 
-4.0404 -1.0183 0.4640 0.6908 4.3274 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -62.96336 16.99976 -3.704 0.004083 站 水 


X1 2.13656 0.17534 12.185 2.53e-07 *** 
X2 0.40022 0.08321 4.810 0.000713 *** 
Signif. codes: 0 ’***’ O.001 ?x**’” 0.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 2.854 on 10 degrees of freedom 
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Multiple R-Squared: 0.9461, Adjusted R-squared: 0.9354 
F-statistic: 87.84 on 2 and 10 DF, p-value: 4.531e-07 

从 计算 结果 可 以 得 到 ， 回 归 系 数 与 回归 方程 的 检验 都 是 显著 的 ， 因此， 回归 方程 
为 





入 


Y = —62.96 + 2.136X1 + 0.4002X,. 


6.3.4 参数 6 的 区 间 估 计 
与 一 元 回归 模型 一 样 ， 这 里 讨论 多 元 回归 模型 参数 区 间 佑 计 ， 
由 6 的 统计 性 质 可 知 ， 





0 人 
Ti 加 天 sd(B,) t(n p 1), 2 0, 了 ) 也 ， (6.25) 
1 二 sd(D) tay/2(7 —p—1), bi 加 sd(D) ta/2(n —p—1)|. (6.26) 


这 里 就 不 必 于 编写 相应 的 求 区 间 佑 计 的 程序 , 因为 前 面 编 的 程序 beta. int.R 
是 一 通用 程序 ， 在 这 里 仍然 可 以 使 用 . 
例 6.7 求 例 6.6 中 参数 0 的 区 间 估 计 (a = 0.05). 
解 。 调 入 程序 beta.int.R, 然后 求解 . 
> source('"beta.int.R'") 


> beta.int(lm.sol) 


Estimate Left Right 
(Intercept) -62.9633591 -100.8411862 -25.0855320 
x1 2.1365581 1.7458709 2.5272454 
X2 0.4002162 0.2148077 0.5856246 


6.3.5 ”预测 


当 多 元 线性 回归 方程 经 过 检验 是 显著 的 ， 且 其 中 每 一 个 系数 均 显著 不 为 0 
时 ， 可 用 此 方程 作 预 测 . 
给 定 入 = 20 = (zo1, Z02， 2 .2Z0p) 7 ， 将 其 代入 回归 方程 ， 得 到 


Yo = 而 二 Dizol 二 Do 
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对 于 闫 = zo, Y= 加 的 置信 和 度 为 1 一 a 的 预测 区 间 为 


(Do — 1,， go+ 0D), (6.27) 


l=to(n—p—1)6V1l+2 (XTX) wo. (6.28) 


例 6.8 求 例 6.6 中 义 二 xo 二 (80,40)7 时 相应 Y 的 概率 为 0.95 的 预测 区 间 . 
解 : 与 一 元 回归 一 样 ， 及 软件 中 的 predict() 也 数 求 多 元 回归 预测 也 是 很 
方便 的 . 
下 面 是 R 软件 的 命令 


> new <- data.frame(x1 = 80, x2 = 40) 


其 中 


> lm.pred<-predict(lm.sol, new, interval="prediction", level=0.95) 
> lm.pred 

fit lwr upr 
[1,] 123.9699 117.2889 130.6509 


由 软件 求 得 , 加 = 123.97, 相应 的 的 概率 为 0.95 的 预测 区 间 为 [117.29, 130.65]. 
6.3.6 ”修正 拟 合 模型 


在 完成 模型 的 计算 后 ， 有 时 还 需要 根据 实际 问题 的 背景 ， 对 模型 进行 适当 的 
修正 ， 如 增加 新 的 自 变 量 ， 或 对 啊 应 变量 了 取 对 数 或 开 方 运算 等 . 
在 R 软件 中 ,函数 update() 是 一 个 非常 方便 修正 模型 的 函数 ,该 函数 可 以 
在 原 模型 的 基础 上 ， 通 过 加 入 或 去 掉 某 些 项 来 得 到 新 模型 . 它 是 形式 是 
new.model <- update(old.model, new.formula) 


在 new.formula 中 ， 其 相应 的 名 字 由 点 “” 组成， 可 以 被 用 作 表 示 “ 旧 模型 公式 
中 相应 的 部 分 ”. 例如， 
fm5 <- lm(y ~ xl + X2 + x3 + x4 + x5, data = production) 
fm6 <- update(fm5, . ~ . + x6) 
smf6 <- update(fm6, sqrt(.) ~ .) 
表示 五 个 变量 的 多 元 回归 ,数据 的 框架 是 production, 拟 合 一 个 附加 的 模型 ， 这 
个 模型 中 包含 第 六 个 变量 , 拟 合 不 同 的 模型 ， 在 模型 中 啊 应 变量 使 用 了 平方 根 变 
换 . 
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特别 注意 ， 如 果 data= argument 是 一 种 关于 原 调 用 模型 拟 合 函数 ， 这 个 信 
奶 是 通过 拟 合 模型 对 象 到 update() 和 它 的 同类 传递 的 . 
模型 中 的 “. ”可 能 用 在 其 它 的 函数 中 ， 但 它 有 稍微 不 同 的 意思 .例如 
fmfull <- lm(y ~ . , data = production) 
拟 合 一 个 模型 ， 其 响应 变量 y 和 回归 因子 变量 和 在 数据 结构 预测 中 其 它 变 量 . 
其 它 函 数 ， 如 探索 逐渐 增长 序列 模型 是 add1() 、drop1() 和 step(). 它们 
的 名 字 已 很 好 地 表明 这 些 函 数 的 目的 ， 对 于 更 详细 的 资料 可 以 看 在 线 帮助 . 











6.3.7 ”计算 实例 


例 6.9 某 大 型 牙膏 制造 企业 为 了 更 好 地 拓展 产品 市 场 , 有 效 地 管理 库存 ,公司 董 
事 会 要 求 销售 部 门 根据 市 场 调查 ， 找 出 公司 生产 的 牙 齐 销售 量 与 销售 价格 、 广 告 
投入 等 之 间 的 关系 ， 从 而 预测 出 在 不 同 价格 和 广告 费用 下 销售 量 ， 为 此 ， 销 售 部 
研 的 研究 人 员 收集 了 过 去 30 个 销售 周期 (每 个 销售 周期 为 4 周 ) 公司 生产 的 牙 
这 的 销售 量 、 销 售 价格 、 投 入 的 广告 费用 ， 以 及 周期 其 他 厂家 生产 同类 牙膏 的 市 
场 平 均 销售 价格 ， 如 表 6.4 所 示 ， 试 根据 这 些 数据 建立 一 个 数学 模型 分析 牙 淄 
销售 量 与 其 他 因素 的 关系 ， 为 制订 价格 策略 和 广告 投入 策略 提供 数量 依据 . 


表 6.4: 牙膏 销售 量 与 销售 价格 、 广 告 费用 等 数据 
销售 | 公司 销售 | 其 他 厂家 平 | 价格 差 | 广告 费用 | 销售 量 
周期 | 价格 (元 ) | 均 价格 (元 ) | (元 ) | ( 百 万 元 ) | ( 百 万 支 ) 
7.38 
8.51 
9.52 
7.50 
3 
8.28 
8.75 
7.87 
7.10 
8.00 


Oi Oo Om 0 WO 一 


上 一 
< 
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表 6.4( 续 ) : 牙膏 销售 量 与 销售 价格 、 广 告 费 用 等 数据 


销售 | 公司 销售 | 其 他 厂家 平 | 价格 差 | 广告 费用 | 销售 量 
周期 | 价格 (元 ) | 均 价 格 (元 ) | (元) ( 百 万 元 ) | 〈 百 万 支 ) 





11 7.89 
12 8.15 
13 9.10 
14 8.86 
15 8.90 
16 8.87 
17 9.26 
18 9.00 
19 8.75 
20 7.95 
21 7.65 
22 7.27 
23 8.00 
24 8.50 
25 8.75 
26 9.21 
27 8.27 
28 7.67 
29 7.93 
30 9.26 
分 析 





由 于 牙膏 是 生活 必需 品 ， 对 于 大 多 数 顾客 来 说 ， 在 购买 同类 产品 的 牙膏 时 ， 
更 多 地 会 关心 不 同 品牌 之 间 的 价格 差 ， 而 不 是 它们 的 价格 本 身 ， 因此， 在 研究 各 
个 因素 对 销售 量 的 影响 时 ,用 价格 差 代 蔡 公司 销售 价格 和 其 他 厂家 平均 价格 更 为 
合适 . 

模型 的 建立 与 求解 
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记 牙 喜 销 售 量 为 了 , 价格 差 为 Xi, 公司 的 广告 费 为 Xz, 假设 基本 模型 为 线性 
模型 
Y= /fot+PXit+ HX2 te. 


输入 数据 ， 调 用 R 软件 中 的 lm() 函数 求解 ， 并 用 summary() 显示 计算 结 
果 (程序 名 : ”exam0609.R). 
> toothpaste<-data.frame( 
X1=c(-0.05, 0.25,0.60,0, 0.25,0.20, 0.15,0.05,-0.15, 0.15, 
0.20，0.10,0.40,0.45,0.35,0.30，0.50,0.50，0.40,-0.05， 
-0.05,-0.10,0.20,0.10,0.50,0.60,-0.05 ,0， 0.05，0.55) ， 
X2=c( 5.50,6.75,7.25,5.50,7.00,6.50,6.75,5.25,5.25,6.00， 
6.50,6.25,7.00,6.90,6.80,6.80,7.10,7.00,6.80,6.50， 
6.25,6.00,6.50,7.00,6.80,6.80,6.50,5.75,5.80,6.80) ， 
Y =c( 7.38,8.51,9.52,7.50,9.33,8.28,8.75,7.87,7.10,8.00， 
7.89,8.15,9.10,8.86,8.90,8.87,9.26,9.00,8.75,7.95, 
7.65,7.27,8.00,8.50,8.75,9.21,8.27,7.67,7.93,9.26) 


> lm.sol<-lm(Y“X1+X2, data=toothpaste) 


> summary (lm.so1) 


Call: 
lm(formula = Y ~ Xi1 + X2) 


Residuals: 
Min 1Q Median 3Q Max 
-0.497785 -0.120312 -0.008672 0.110844 0.581059 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 4.4075 0.7223 6.102 1.62e-06 *** 
X1 1.5883 0.2994 5.304 1.35e-05 *** 
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4.733 6.25e-05 *** 


324 
0.5635 0.1191 
0.01 ?*’” 0.05 ”.” 0.1 i 


”这 


X2 
0 


Signif. codes: 0.001 ?x**? 
Residual standard error: 0.2383 on 27 degrees of freedom 
Adjusted R-squared: 0.8776 


? 阔 阔 炒 ? 


p-value: 1.845e-13 


Multiple R-Squared: 0.886, 
F-statistic: 105 on 2 and 27 DF, 
计算 结果 通过 回归 系数 检验 和 回归 方程 检验 , 由 此 得 到 销售 量 与 价格 差 与 广 


告 费 之 间 的 关系 为 
Y = 4.4075 + 1.5883X1 十 0.5635X2. 


模型 的 进一步 分 析 
为 进一步 分 析 回 归 模 型 ， 我 们 画 出 y 与 zl 和 与 x2 散 点 图 ， 从 散 点 图 上 
可 以 看 出 ， 对 于 y 与 zl, 用 直线 拟 合 较 好 .而 对 于 y 与 22, 则 用 二 次 曲线 拟 合 较 





好 ， 如 图 6.4 所 示 . 











7.0 








5.5 
X2 


T 
0.6 
TZ2>2~Y 


(b) 











(a) 


TZ1I~Y 
图 6.4: xz1,z2 和 y 的 散 点 图 和 拟 合 曲线 








Tn 





绘 出 图 6.4 的 R 命令 如 下 : 
#### 绘 Z1 与 y 的 散 点 图 和 回归 直线 
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> attach(toothpaste) 

> plot(Y-X1); abline(lm(Y-X1) ) 

#### 绘 Z2 与 y 的 散 点 图 和 回归 曲线 

> lm2.sol<-lm(Y“X2+I(X2°2)) 

> x<-seq(min(X2), max(X2) , len=200) 

> y<-predict (lm2.sol, data.frame (X2=x)) 

plot (Y“X2); lines(x,y) 

其 中 I(X2~2) 表示 模型 中 Xs 的 平方 项 ， 即 X2. 
从 图 6.4 看 出 ， 将 销售 量 模型 改 为 





Vv 


y=PB0+BXii+h Xt DXi+e 


似乎 更 合理 . 我 们 作 相 应 的 回归 分 析 ， 

> lm.new<-update(lm.sol, .~ .+I(X2°2)) 

> summary (lm.new) 

Call: 

lm(formula = Y ~ Xi + X2 + I(X2°2), data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.40330 -0.14509 -0.03035 0.15488 0.46602 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 17.3244 5.6415 3.071 0.004951 +** 

X1 1.3070 0.3036 4.305 0.000210 *** 

X2 -3.6956 1.8503 -1.997 0.056355 . 

I(X2°2) 0.3486 0.1512 2.306 0.029341 +* 

Signif. codes: 0 ’***’ O.001 ’**’” O.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 0.2213 on 26 degrees of freedom 
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Multiple R-Squared: 0.9054, Adjusted R-squared: 0.8945 
F-statistic: 82.94 on 3 and 26 DF, p-value: 1.944e-13 


此 时 ， 我 们 发 现 ， 模 型 残 差 的 标准 差 $ 有 所 下 降 ， 相 关系 数 的 平方 RI 有 所 上 
升 ， 这 说 明 模型 修正 是 合理 的 . 但 这 也 出 现 一 个 问题 ， 就 是 对 应 于 52 的 P- 值 
> 0.05. 为 进一步 分 析 ， 作 6 的 区 间 佑 计 . 


> source('"beta.int.R'") 


> beta.int (lm.new) 


Estimate Left Right 
(Intercept) 17.3243685 5.72818421 28.9205529 
X1 1.3069887 0.68290927 1.9310682 
X2 -3.6955867 -7.49886317 0.1076898 
I(X2°2) 0.3486117 0.03786354 0.6593598 


6 的 区 间 估 计 是 [一 7.49886317，0.1076898], 它 包含 了 0, 也 就 是 说 ， B62 的 值 可 
能 会 为 0. 
去 掉 Xs 的 一 次 项 ， 再 进行 分 析 . 
> lm2.new<-update(lm.new, .~ .-X2) 
> summary (lm2.new) 
Call: 
lm(formula = Y ~ Xi + I(X2°2), data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.485943 -0.114094 -0.004604 0.105342 0.559195 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 6.07667 0.35531 17.102 5.17e-16 *** 
X1 1.52498 0.29859 5.107 2.28e-05 *** 
I(X2°2) 0.04720 0.00952 4.958 3.41e-05 *** 


Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 
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Residual standard error: 0.2332 on 27 degrees of freedom 
Multiple R-Squared: 0.8909, Adjusted R-squared: 0.8828 
F-statistic: 110.2 on 2 and 27 DF, p-value: 1.028e-13 


此 模型 虽然 通过 了 下 检验 和 工 检验 ,但 与 上 一 模型 对 比 来 看 ，5 上 升 ， 





下 降 ， 这 又 是 此 模型 的 不 足 之 处 . 
再 作 进 一 步 的 修正 ， 考 虑 zl 与 za 交互 作用 ， 即 模型 为 


Y=B+B Xt Xt PX + PXiXs te. 


> lm3.new<-update(lm.new, .~ .+X1i*X2) 

> summary (lm3.new) 

Call: 

lm(formula = Y ~ Xi + X2 + I(X2°2) + X1:X2, data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.437250 -0.117540 0.004895 0.122634 0.384097 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 29.1133 7.4832 3.890 0.000656 *** 

X1 11.1342 4.4459 2.504 0.019153 * 

X2 -7.6080 2.4691 -3.081 0.004963 +** 

I(X2°2) 0.6712 0.2027 3.312 0.002824 +** 

X1:X2 -1.4777 0.6672 -2.215 0.036105 * 

Signif. codes: 0 ’***’ O.001 ?x**’ O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 0.2063 on 25 degrees of freedom 
Multiple R-Squared: 0.9209 ， Adjusted R-squared: 0.9083 
F-statistic: 72.78 on 4 and 25 DF, p-value: 2.107e-13 
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模型 通过 t 检验 和 下 检验 ， 并 且 6 减少 ，RR 增加 因此， 最 终 模型 选 为 





Y = 29.1133 + 11.1342X1 — 7.6080X, 十 0.6712X2 — 1.4777X1X,+&. 


6.4 ”逐步 回归 


6.4.1 “最 优 ” 回 归 方 程 的 选择 


在 实际 问题 中 ， 影 响 因 变量 y 的 因素 很 多 ， 人 们 可 以 从 中 挑选 若干 个 变量 建 
并 回归 方程 ， 这 便 涉及 变量 选择 的 问题 . 

一 般 来 讲 ， 如 果 在 一 个 回归 方程 中 忽略 了 对 了 有 显著 影响 的 自 变量 ， 那 么 
所 建立 的 方程 必 与 实际 有 较 大 的 偏离 ， 但 变量 选 得 过 多 ,使 用 就 不 方便 ， 特 别 当 
方程 中 含有 对 Y 影响 不 大 的 变量 时 ， 可 能 因为 $5 的 自由 度 的 减 小 而 使 0° 的 
佑 计 增 大 ， 从 而 影响 使 用 回归 方程 作 预 测 的 精度 . 因此 适当 地 选择 变量 以 建立 一 
个 “最 优 ” 的 回归 方程 是 十 分 重要 的 . 

什么 是 “最 优 ” 回 归 方程 呢 ? 对 于 这 个 问题 有 许多 不 同 的 准则 ， 在 不 同 的 准 
则 下 “最 优 ” 回 归 方程 也 可 能 不 同 . 这 里 讲 的 “最 优 ” 是 指 从 可 供 选 择 的 所 有 变 
量 中 选 出 对 Y 有 显著 影响 的 变量 建立 方程 ， 且 在 方程 中 不 含 对 了 无 显著 影响 的 
变量 . 

在 上 述 意义 下 ， 可 以 有 多 种 方法 来 获得 “最 优 ” 回 归 方程 ， 如“ 一切 子 集 回 
归 法 ”、“ 前 进 法 ”、“ 后 退 法 ”、“ 逐 步 回 归 法 ”等 . 其 中 “逐步 回归 法 ”由 于 计 
算 机 程序 简便 ， 因 而 使 用 较为 普遍 . 


























6.4.2 ”逐步 回归 的 计算 


R 软件 提供 了 较为 方便 的 “逐步 回归 ”计算 函数 step(), 它 是 以 AIC 信息 
统计 量 为 准则 ， 通 过 选择 最 小 的 AIC 信息 统计 量 ， 来 达到 删除 或 增加 变量 的 目 
的 . 

step() 函数 的 使 用 格式 为 

step(object, scope, scale = 0， 
direction = c("both", "backward", "forward"), 


trace = 1, keep = NULL, steps = 1000, k = 2, ...) 
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其 中 object 是 回归 模型 . scope 是 确定 逐步 搜索 的 区 域 . scale 用 于 AIC 统 
计量 . direction 确定 逐步 搜索 的 方向 ， 缺 省 值 为 "both'" 是 “一 切 子 集 回 归 
法 ”，"backward" 是 后 退 法 ”，"forward" 是 “前 进 法 ”. 其 他 参数 见 在 线 帮助 . 
在 这 里 不 具体 介绍 通常 概率 统计 教科 书 上 的 逐步 回归 计算 公式 , 而 是 通过 一 
个 简单 的 例子 , 介绍 如 何 使 用 R 软件 来 完成 逐步 回归 的 过 程 ， 从 而 达到 选择 “最 
优 ” 方 程 的 目的 . 
例 6.10 某 种 水 泥 在 凝固 时 放出 的 热量 了 ( 卡 / 克 ) 与 水 泥 中 四 种 化 学 成 分 Xi1， 
XXX 有 关 ， 现 测 得 13 组 数据 ， 如 表 6.5 所 示 ， 希望 从 中 选 出 主要 的 变 
量 ， 建 立轴 关于 它们 的 线性 回归 方程 . 


表 6.5: 数据 表 


和 2 Xs 从 4 Y 

31 22 44 72.5 
54 18 22 93.1 
47 4 26 115.9 
40 23 34 83.8 
66 9 12 113.3 
68 8 12 109.4 





解 : 首先 作 多 元 线性 回归 方程 
> cement<-data.frame( 
X1=c( 7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10), 
X2=c(26, 29,56, 31, 52, 55, 71, 31, 54, 47, 40,，66,，68)， 
X3=c( 6, 15, 8, 8, 6, 9, 17, 22, 18, 4, 23, 9， 8)， 
X4=c(60, 52, 20, 47,33, 22, 6，44，22，26，34，12，12) ， 
Y =c(78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 
93.1,115.9， 83.8，113.3，109.4) 
) 
> lm.sol<-lm(Y ~ X1+X2+X3+X4, data=cement) 
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> Summary(lm.Ssol) 
Call: 
lm(formula =Y ~ Xi1 + X2 + X3 + X4, data = cement) 


Residuals: 
Min 1Q Median 3Q Max 
-3.1750 -1.6709 0.2508 1.3783 3.9254 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 62.4054 70.0710 0.891 0.3991 


X1 1.5511 0.7448 2.083 0.0708 . 

X2 0.5102 0.7238 0.705 0.5009 

X3 0.1019 0.7547 0.135 0.8959 

X4 -0.1441 0.7091 -0.203 0.8441 

Signif. codes: 0 ’***’ O.001 ?x**’ O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 2.446 on 8 degrees of freedom 
Multiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 
F-statistic: 111.5 on 4 and 8 DF, p-value: 4.756e-07 


从 上 述 计算 中 可 以 看 到 ， 如 果 选 择 全 部 变量 作 回归 方程 ,效果 是 不 好 的 . 
为 回归 方程 的 系数 全 部 都 没有 通过 检验 . 


下 面 用 函数 step() 作 逐 步 回归 . 


> lm.step<-step(lm.sol) 
Start: AIC= 26.94 
Y ”~ Xi1 + X2 + X3 + X4 


Df Sum of Sq RSS AIC 
- X3 1 0.109 47.973 24.974 
- X4 1 0.247 48.111 25.011 
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- X2 1 2.972 50.836 25.728 


<none> 47.864 26.944 
— X1 1 25.951 73.815 30.576 


Step: AIC= 24.97 
Y~ Xi + X2 + X4 


Df Sum of Sq RSS AIC 


<none> 47.97 24.97 
— X4 1 9.93 57.90 25.42 
— X2 1 26.79 74.76 28.74 


— X1 1 820.91 868.88 60.63 


从 程序 运行 结果 可 以 看 到 ， 用 全 部 变量 作 回 归 方程 时 ， AIC 值 为 26.94. 接 
下 来 显示 的 数据 表 告 诉 你 ， 如 果 去 掉 变 量 Xs, 得 到 回归 方程 的 AIC 值 为 24.974. 
如 果 去 掉 变 量 X4, 得 到 回归 方程 的 AIC 值 为 25.011. 后 面 的 类 推 ， 由 于 去 掉 变 
量 Xs 可 以 使 AIC 达到 最 小 , 因此 ，R 软件 自动 去 掉 变 量 Xa, 进行 下 一 轮 计算 . 


在 下 一 轮 计算 中 ， 无 论 去 掉 哪 一 个 变量 ， AIC 值 均 会 升 高 ， 因 此 R 软件 终 
止 计算 ， 得 到 “最 优 ” 的 回归 方程 . 


下 面 分 析 一 下 计算 结果 . 用 函数 summary() 提取 相关 信息 . 


> summary (lm.step) 
Call: 
lm(formula = Y ~ Xi + X2 + X4, data = cement) 


Residuals: 
Min 1Q Median 3Q Max 
-3.0919 -1.8016 0.2562 1.2818 3.8982 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 71.6483 14.1424 5.066 0.000675 *** 
X1 1.4519 0.1170 12.410 5.78e-07 *** 
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X2 0.4161 0.1856 2.242 0.051687 . 
X4 -0.2365 0.1733 -1.365 0.205395 
Signif. codes: 0 ’***’ O.001 ’**’? O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 2.309 on 9 degrees of freedom 
Multiple R-Squared: 0.9823, Adjusted R-squared: 0.9764 
F-statistic: 166.8 on 3 and 9 DF, p-value: 3.323e-08 


由 显示 结果 看 到 ， 回 归 系 数 检验 的 显著 性 水 平 有 很 大 提高 ， 但 变量 X2, Xi 
系数 检验 的 显著 性 水 平 仍 不 理想 ， 下 面 如 何 处 理 呢 ? 

在 R 软件 中 , 还 有 两 个 函数 可 以 用 来 作 逐 步 回 归 . 这 两 个 函数 是 ada1() 和 
drop10. 它们 的 使 用 格式 为 


addi(object, scope, ...) 
dropl(object, scope, ...) 


addi(object, scope, scale=0, test=c('"none", "Chisq"), 
k=2, trace=FALSE, ...) 
dropi(object, scope, scale=0, test=c("none", "Chisq"), 


k=2, trace=FALSE, ...) 


addi(object, scope, scale=0, test=c('"none", "Chisq", "F"), 
x=NULL, k=2, ...) 
dropli(object, scope, scale=0, all.cols=TRUE, 
test=c("none", "Chisq", "F"), k=2, ...) 
其 中 object 是 由 拟 合 模型 构成 的 对 象 . scope 是 模型 考虑 增加 或 去 掉 项 构成 
的 公式 . scale 是 用 于 计算 Cy 的 残 差 的 均 方 估计 值 ， 缺 省 值 为 0 或 NULL. 其 他 
见 在 线 帮助 ， 
下 面 用 drop1() 计算 . 
> dropi(lm.step) 


Single term deletions 
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Model: 
Y~ Xi1 + X2 +X4 
Df Sum of Sq RSS AIC 


<none> 47.97 24.97 
X1 1 820.91 868.88 60.63 
X2 1 26.79 74.76 28.74 
X4 1 9.93 57.90 25.42 


从 运算 结果 来 看 ， 如 果 去 掉 变 量 z4, AIC 值 会 从 24.97 增加 的 25.42, 是 增加 
的 最 少 的 . 另外 , 除 AIC 准则 外 , 残 差 的 平方 和 也 是 逐步 回归 的 重要 指标 之 一 ， 
从 直观 来 看 ， 拟 合 越 好 的 方程 ， 残 差 的 平方 和 应 越 小 . 去 掉 变 量 X4, 残 差 的 平方 
和 上 升 9.93, 也 是 最 少 的 . 因此 ， 从 这 两 项 指标 来 看 ， 应 该 再 去 掉 变 量 X4. 
> lm.opt<-lm(Y ~ X1+X2, data=cement); Summary(lm.opt) 

Call: 
lm(formula = Y ~ Xi1 + X2, data = cement) 





Residuals: 
Min 1Q Median 3Q Max 
-2.893 -1.574 -1.302 1.362 4.048 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 52.57735 2.28617 23.00 5.46e-10 *** 


X1 1.46831 0.12130 12.11 2.69e-07 六 沙沙 
X2 0.66225 0.04585 14.44 5.03e-08 +*** 
Signif. codes: 0 ’***’ O.001 ?x**’ O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 2.406 on 10 degrees of freedom 
Multiple R-Squared: 0.9787, Adjusted R-squared: 0.9744 
F-statistic: 229.5 on 2 and 10 DF, p-value: 4.407e-09 


这 个 结果 应 该 还 是 满意 的 ， 因 为 所 有 的 检验 均 是 显著 的 . 最 后 得 到 “最 优 ” 
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的 回归 方程 为 


入 


Y = 52.58 + 1.468X1 + 0.6622X,. 


6.5 回归 诊断 


6.5.1 ”什么 是 回归 诊断 


在 前 面 ， 我 们 给 出 了 利用 逐步 回归 来 选择 对 因 变 量 Y 影响 最 显著 的 自 变 量 
进入 回归 方程 的 方法 ， 并 且 还 可 以 利用 AIC 准则 或 其 他 准则 来 选择 最 佳 回 归 模 
型 . 但 是 这 些 只 是 从 选择 自 变 量 上 来 研究 ， 而 没有 对 回归 模型 的 一 些 特性 做 更 进 
一 步 的 研究 ， 并 且 没 有 研究 一 引起 异常 样品 问题 ,异常 样品 的 存在 往往 会 给 回归 
模型 带 来 不 稳定 .为 此 ， 人 们 提出 所 谓 回归 诊断 的 问题 (regression diagnostics)， 
其 主要 内 容 有 : 

(1) 关于 误差 项 是 否 满足 

(a) 独立 性 ， 

(b) 等 方差 性 ; 

(c) 正 态 性 . 

(2) 选择 线性 模型 是 否 合适 ? 

(3) 是 否 存 在 异常 样本 ? 

(4) 回归 分 析 的 结果 是 否 对 某 些 样本 的 依赖 过 重 ? 也 就 是 说 ,回归 模型 是 否 具 备 
稳定 性 ? 

(5) 自 变 量 之 间 是 否 存在 高 度 相 关 ? 即 是 否 有 多 重 共 线 性 问题 存在 ? 
下 面 的 例子 充分 说 明了 回归 诊断 的 重要 性 . 

例 6.11 图 的 有 用 性 (Anscomber, 1973) 

表 6.6 给 出 的 四 组 人 造 数据 ， 每 组 数据 集 由 11 对 点 (Xi, Yi) 组 成 ， 拟 合 于 
简单 线性 模型 


























Yi = bot HiTit ei 
试 分 析 四 组 数据 是 否 通 过 回归 方程 的 检验 , 并 用 图 形 分 析 每 组 数据 的 基本 情况 . 
解 : 输入 数据 ， 作 回归 分 析 (程序 名 ;exam0611.R). 


Anscombe<-data.frame( 


X=c(10.0，8.0，13.0，9.0，11.0，14.0，6.0，4.0，12.0，7.0，5.0) ， 





数据 
号 入 
区 
| 10.0 
8.0 
3 13.0 
4 9.0 
5 11.0 
6 14.0 
7 6.0 
8 4.0 
9 12.0 
10 C6 
11 5.0 
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表 6.6: Anscomber 数据 


数 据 组 号 

1 2 3 

Y Y Y 
8.04 9.14 7.46 
6.95 8.14 6.77 
7.58 8.74 12.74 
8.81 8.77 7.11 
8.33 9.26 7.81 
9.96 8.10 8.84 
7.24 6.13 6.08 
4.26 3.10 5.39 
10.84 9.13 8.15 
4.82 7.26 6.44 


5.68 4.74 5.73 


19.0 
8.0 
8.0 
8.0 
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Yi=c(8.04,6.95, 7.58,8.81,8.33,9.96,7.24,4.26,10.84,4.82,5.68), 
Y2=c(9.14,8.14, 8.74,8.77,9.26,8.10,6.13,3.10, 9.13,7.26,4.74), 
Y3=c(7.46,6.77,12.74,7.11,7.81,8.84,6.08,5.39, 8.15,6.44,5.73), 
X4=c (rep(8,7), 19, rep(8,3)), 


Y4=c(6.58,5.76,7.71,8.84,8.47,7.04,5.25,12.50，5.56,7.91,6.89) 


) 


summary (lm(Y1~“X, data=Anscombe)) 


summary (lm(Y2~X, data=Anscombe)) 


summary (lm(Y3~X, data=Anscombe)) 


summary (lm(Y4~X4,data=Anscombe)) 


这 四 组 数据 的 计算 结果 由 表 6.7 所 示 (最 多 有 0.01 的 误差 ) 从 表 6.7 所 列 结 
果 ， 可 以 说 明 ， 这 四 组 数据 全 部 能 通过 模型 检验 和 方程 的 系数 检验 . 由 于 每 个 数 
据 集 得 到 的 各 种 统计 量 的 值 是 相同 的 ， 因 此， 可 能 会 认为 每 个 数据 集合 对 于 线性 
模型 会 同等 的 适用 ， 但 事实 确 非 如 此 . 
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表 6.7: 四 组 数据 的 计算 结果 


系数 估计 值 标准 差 t- 值 P- 值 
3.0 1.125 2.67 0.026 
局 0.5 0.118 4.24 0.0022 

方程 | $= 1.24， R? = 0.667, F = 17.99, P = 0.002 





我 们 画 出 四 组 数据 的 散 点 图 和 相应 的 回归 直线 ， 如 图 6.5 所 示 . 从 图 形 来 
看 ， 这 四 组 数据 是 完全 不 同 的 . 

第 一 个 数据 集合 , 见 图 6.5(a). 如 果 简 单线 性 回归 模型 合适 的 话 , 这 就 是 我 们 
期 望 看 到 的 数据 集合 . 图 6.5(b) 给 出 第 二 个 数据 集合 , 它 给 出 一 个 不 同 的 结论 ， 
即 基于 简单 线性 回归 分 析 是 不 正确 的 ， 而 一 条 光滑 曲线 ， 可 能 是 二 次 多 项 式 ， 可 
以 以 较 小 的 剩余 变异 拟 合 数据 . 
> lm2.sol<-lm(Y2~X+I(X*2), data=Anscombe); summary (lm2.so01) 

Call: 
lm(formula = Y2 ~ X + I(X~2), data = Anscombe) 





Residuals: 
Min 1Q Median 3Q Max 
-0.0013287 -0.0011888 -0.0006294 0.0008741 0.0023776 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -5.9957343 0.0043299 -1385 <2e-16 *** 


X 2.7808392 0.0010401 2674 <2e-16 *** 
I(X°2) -0.1267133 0.0000571 -2219 <2e-16 *** 
Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.001672 on 8 degrees of freedom 
Multiple R-Squared: 二， Adjusted R-squared : 1 
F-statistic: 7.378e+06 on 2 and 8 DF, p-value: < 2.2e-16 
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(c) 数据 3 (d) 数据 4 
图 6.5: Anscombe 数据 的 散 点 图 
因此 ， 回 归 方程 为 
y = 一 5.9957343 十 2.78083927z 一 0.12671337z” 


更 合理 ( 见 图 6.6(a)). 
图 6.5(c) 表示 , 简单 回归 的 描述 对 于 大 部 分 数据 是 正确 的 , 但 一 个 样本 距离 
拟 合 回归 直线 太 远 . 这 称 为 异常 值 问题 . 很 可 能 需要 从 数据 集合 中 删除 那个 与 其 
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他 数据 不 匹配 的 数据 样本 回归 需要 根据 剩 下 的 10 个 样本 重新 拟 合 . 
> i<-1:11; Y31<-Anscombe$Y3[i!=3]; X3<-Anscombe$X[i!=3] 

> lm3.sol<-lm(Y31~X3); summary (lm3.so01) 

Call: 

lm(formula = Y31 ~ X3) 


Residuals: 
Min 1Q Median 3Q Max 
-0.0060173 -0.0012121 -0.0010173 -0.0008225 0.0140693 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 4.0106277 0.0057115 702.2 <2e-16 *** 
X3 0.3450433 0.0006262 551.0 <2e-16 *** 


Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.006019 on 8 degrees of freedom 
Multiple R-Squared: 1,， Adjusted R-squared: 1 
F-statistic: 3.036e+05 on 1 and 8 DF, p-value: < 2.2e-16 


得 到 的 线性 回归 方程 为 
y = 4.0106277 + 0.3450433z. 


图 6.6(b) 绘 出 修正 后 的 直线 方程 . 

最 后 一 个 数据 集合 ( 见 6.5(d)). 它 与 上 述 三 个 不 同 ， 没 有 足够 的 信息 来 对 拟 
合 模型 作出 判断 . 斜率 参数 的 估计 值 1 很 大 程度 上 由 ys 的 值 决定 . 如 果 第 8 号 
样本 被 删除 ， 则 不 能 估计 B81. 因此， 我 们 无 法 相信 这 个 一 个 综合 分 析 ， 它 对 单个 
样本 如 此 依赖 . 

在 R 软件 中 ， 下 人 列 函 数 


influence.measures rstandard rstudent dffits 








cooks.distance dfbeta dfbetas covratio 


hatvalues hat 
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(a) 数据 2, 采用 二 次 拟 合 (b) 数据 3, 去 掉 一 个 样本 


图 6.6: Anscombe 数据 修正 后 的 回归 曲线 
与 回归 诊断 有 关 ， 关 于 函数 的 使 用 方法 ， 在 讲 到 相关 内 容 时 ， 再 具体 的 介绍 . 
6.5.2 ” 残 差 
在 利用 最 小 二 乘 原理 求 回 归 模 型 时 ， 对 残 差 实际 上 是 做 了 独立 性 、 等 方差 性 
和 正 态 性 的 假设 . 但 对 实际 上 的 p 十 1 个 变量 的 n 组 样本 数据 所 求 得 的 回归 模型 
的 残 差 ， 是 否 满足 这 三 个 性 质 还 应 该 进行 讨论 . 在 讨论 残 差 的 检验 问题 之 前 ， 首 
先 讨 论 残 差 . 
1. 普通 残 差 
设 线性 回归 模型 为 
Y = XP+e, (6.29) 
其 中 是 由 响应 变量 构成 的 n 维 向量 ，X 是 n x (p 十 1) 阶 设计 矩阵，6 是 
Dp 十 1 维 向 量 ，e 是 n 维 误 差 向 量 . 
回归 系数 的 估计 值 
B= (RX (6.30) 


拟 合 值 了 为 
?= XP=X(XTX) XTY = HY, (6.31) 
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其 中 
大 (6.32) 


称 互 为 帽子 矩阵 “ 残 差 为 


é=Y-Y=(I-H)Y. (6.33) 


R 软件 中 的 residuals() 函数 (或 resid() 函数 ) 提供 了 模型 残 差 的 计算 ， 其 使 
用 方式 为 


residuals(object, ...) 
resid(object, ...) 
其 中 object 为 回归 模型 . 


在 得 到 残 差 后 ， 可 以 对 残 差 进 行 检验 ， 如 正 态 性 检验 等 . 
例 6.12 对 例 6.5(Forbes 数据 ) 得 到 回归 模型 得 到 的 残 差 作 W 正太 性 检验 . 
解 :在 计算 完 例 6.5 的 回归 模型 后 ， 计 算 其 残 差 ， 并 用 shapiro.test() 函 
数 ( 见 第 三 章 3.2 节 ) 作 残 差 的 正 态 性 检验 . 
> y.res<-residuals(lm.sol1) 
> shapiro.test(y.res) 
Shapiro-Wilk normality test 
data: y.res 
W = 0.5465, p-value = 3.302e-06 
因此 ， 残 差 不 满 足 正 态 性 假设 . 
在 去 掉 第 12 号 样本 后 ， 再 对 所 得 到 回归 模型 的 残 差 进行 正 态 性 检验 . 
> y1i2.res<-residuals (lm12) 
> shapiro.test(y12.res) 
Shapiro-Wilk normality test 
data: yli2.res 
W = 0.9222, p-value = 0.1827 


能 通过 正 态 性 检验 ， 因 此 ， 去 掉 第 12 号 样本 点 还 是 合理 的 . 


2. 标准 化 (内 学 生化 ) 残 差 
4 因为 向 量 Y 被 五 左 乘 后 ， 变 成 了 , 由 此 得 名 


6.5 回归 诊断 341 


由 差 向 量 = 的 性 质 ， 得 到 





E(E)=0, Var(3) = o2(07 一 万 )， (6.34) 
因此 ， 对 每 个 有 攻 
Ei 

re ~ NN(0,1), (6.35) 


其 中 hi; 是 矩阵 瑟 对 角 线 上 的 元 素 . 

用 个 ( 见 式 (6.23)) 作为 o 的 佑 计 值 ， 称 

Ei 
2 OV1— hi 

为 标准 化 残 差 (standardized residual), 或 者 称 为 内 学 生化 残 差 (internally studen- 
tized residual). 这 因为 o? 的 估计 中 用 了 包括 第 i 个 样本 在 内 的 全 部 数据 ， 由 式 
(6.35) 可 知 ， 标 准 化 残 差 7; 近似 服从 标准 正 态 分 布 . 

及 软件 中 ， 函 数 rstandard() 计算 回归 模型 的 标准 化 (内 学 生化 ) 残 差 ， 其 
使 用 格式 为 


rstandard(model, infl = lm.influence(model, do.coef = FALSE) ， 


(6.36) 


sd = sqrt(deviance(model)/df.residual (model)), ...) 
其 中 model 是 由 lm 或 glm 生成 的 对 象 . infl 是 由 lm.influence 返回 值得 到 
的 影响 结构 .sd 是 模型 的 标准 差 . 
3. 外 学 生化 残 差 
若 记 删除 第 i 个 样本 数据 后 ， 由 余下 的 n 一 1 个 样本 数据 求 得 的 回归 系数 为 
Bw, 做 0? 的 估计 值 ， 有 
1 a 
0 ee 2 (¥ bey ) ; (6.37) 
pa 
其 中 X5 为 设计 矩阵 X 的 第 j 行 . 称 
;60)) = e 
为 学 生化 残 差 (studentized residual), 或 者 称 为 外 学 生化 残 差 (externally studen- 


tized residual). 


R 软件 中 ,函数 rstudent() 计算 回归 模型 的 (外 ) 学 生化 残 差 ， 其 使 用 格式 


(6.38) 


为 
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rstudent (model, infl = lm.influence(model, do.coef = FALSE) ， 


res = infl$wt.res, ...) 


其 中 model 是 由 lm 或 glm 生成 的 对 象 . infl 是 由 lm.influence 返回 值得 到 
的 影响 结构 . res 是 模型 残 差 . 
下 面 介 绍 用 残 差 图 检验 残 差 的 方法 . 


6.5.3 “” 残 差 图 

以 残 差 & 为 纵 坐 标 ， 以 拟 合 值 六 或 对 应 的 数据 观测 序号 i 或 数据 观测 时 间 
为 横 坐 标的 散 点 图 统 自然 数 为 残 差 图 ， 残 差 图 是 进行 模型 诊断 的 重要 工具 ， 

1. 回归 值 Y 与 残 差 的 残 差 图 


为 检验 建立 的 多 元 线性 回归 模型 是 否 合适 , 可 以 通过 回归 值 Y 与 残 差 的 散 点 
图 来 检验 . 其 方法 是 画 出 回归 值 Y 与 普通 残 差 的 散 点 图 ((Y,é;), i = 1,2,…,n)， 
或 者 画 出 回归 值 Y 与 标准 残 差 的 散 点 图 ((Y,7i)，i = 1,2,…,n), 其 图 形 可 能 会 
出 现下 面 三 种 情况 (如 图 6.7 所 示 ). 


残 差 残 差 残 差 











Y Y ] Y 


(a) 正常 情况 (b) 异 方差 情况 (c) 非 线性 情况 
图 6.7: 回归 值 了 与 残 差 的 散 点 图 





对 于 图 6.7(a) 的 情况 ,不论 回归 值 Y 的 大 小 ， 而 残 差 s; (或 7;) 具有 相同 的 
分 布 ， 并 满足 模型 的 各 假设 条 件 ， 对 于 图 6.7(b) 的 情况 ， 表 示 回 归 值 Y 的 大 小 
与 残 差 的 波动 大 小 有 关系 ， 即 等 方差 性 的 假设 有 问题 ， 对 于 图 6.7(c), 表示 线性 
模型 不 合适 ， 应 考虑 非 线 性 模型 . 

对 于 图 6.7(a), 如 果 大 部 分 点 都 落 在 中 间 部 分 , 而 只 有 少数 几 个 点 落 在 外 边 ， 
则 这 些 点 对 应 的 样本 ， 可 能 有 异常 值 存在 . 

例 6.13 画 例 6.6 普通 残 差 的 散 点 图 和 标准 化 残 差 的 散 点 图 . 
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解 : 在 计算 出 例 6.6 的 回归 模型 后 ， 计 算 普 通 残 差 和 标准 化 残 差 ， 并 画 出 相 
应 的 散 点 图 R 的 命令 如 下 : 
#### 男 残 差 图 


> y.res<-resid(lm.so1l); y.fit<-predict (lm.sol) 

















> plot(y.res“y.fit) 
#### 画 标 准 化 残 差 图 


> y.rst<-rstandard(lm.sol1) 

















> plot(y.rst“y.fit) 
绘 出 的 图 形 如 图 6.8(a) 、(b) 所 示 . 








y.rst 
| l l l | 


-1.5 -1.0 -0.5 0.0 Os 第 村 bh 
| 

















9 
T T T T T T T T 
120 130 140 150 120 130 140 150 





yfit yfit 


(a) 残 差 图 (b) 标准 化 残 差 图 
图 6.8: 例 6.6 的 残 差 图 





从 图 6.8 可 以 看 出 ， 残 差 具 有 相同 的 分 布 且 满足 模型 的 各 假设 条 件 . 
再 仔细 分 析 ， 当 残 差 服从 正 态 分 布 的 假设 成 立时 ， 标 准 化 残 差 应 近似 在 服从 
标准 正 态 分 布 .根据 正 态 分 布 的 性 质 ， 若 随机 变量 X ~ N(Uuwc ), 则 有 


P{14—20<X<h+20}= 0.954. 


也 就 是 说 ， 对 于 标准 化 残 差 ， 应 该 有 95% 的 样本 点 落 在 区 间 [一 2, 2?] 中 .另外 ， 
可 以 证 明 ， 拟 合 值 了 与 残 差 相互 独立 ， 因 而 与 标准 化 残 差 mi, 72, …, rn 也 独 
立 ， 所 以 ， 如 果 以 拟 合 值 六 为 横 坐 标 ， m 为 纵 坐标 ， 那 么 平面 上 的 点 (Yi,7;)， 
i 二 1,2,…,n 大 致 应 落 在 宽度 为 4 的 水 平 带 |r;| < 2 的 区 域内 ,， 且 不 呈现 任何 趋 
势 ， 从 这 种 角度 看 ， 通 过 标准 化 残 差 图 ， 更 容易 诊断 出 回归 模型 是 否 出 现 问题 . 
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回 过 来 ， 再 看 图 6.8(b), 所 有 点 均 在 宽度 为 4 的 水 平 带 Imi| < 2 中 ， 且 不 呈 
现任 何 趋势 ， 因 此 ， 例 6.6 的 模型 应 该 是 合适 的 . 
例 6.14 某 公 司 为 了 研究 产品 的 营销 策略 ， 对 产品 的 销售 情况 进行 了 调查 . 设 
为 某 地 区 该 产品 的 家 庭 人 均 购 买 量 (党 位: 元 ), X 为 家 庭 人 均 收入 (单位 : 元 ). 
表 6.8 给 出 了 5 和 8 个 家 庭 的 数据 ， 试 通过 这 些 数据 建立 了 与 X 的 关系 式 . 
表 6.8: 某 地 区 家 庭 人 均 收 入 与 人 均 购买 量 数 据 
语 号 X() YN 





1 770 1.74 
并 724 4.10 
3 808 3.94 
4 790 0.96 
5 783 3.29 
6 406 0.44 
7 1242 3.24 
8 658 2.14 
9 1746 5.71 
10 468 0.64 
11 1114 1.90 
12 413 0.51 
13 1787 8.33 
14 3560 14.94 
15 1495 5.11 
16 2221 3.85 
17 1526 3.93 
18 


解 : 输入 数据 ， 作 线性 回归 模型 (程序 名 :exam0614.R) 
X<-scan() 
679 292 1012 493 582 1156 997 2189 1097 2078 
1818 1700 747 2030 1643 414 354 1276 745 435 
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540 874 1543 1029 710 1434 837 1748 1381 1428 

1255 1777 370 2316 1130 463 770 724 808 790 
783 406 1242 658 1746 468 1114 413 1787 3560 
1495 2221 1526 


Y<-scan() 

0.79 0.44 0.56 0.79 2.70 3.64 4.73 9.50 5.34 6.85 
5.84 5.21 3.25 4.43 3.16 0.50 0.17 1.88 0.77 1.39 
0.56 1.56 5.28 0.64 4.00 0.31 4.20 4.88 3.48 7.58 
2.63 4.99 0.59 8.19 4.79 0.51 1.74 4.10 3.94 0.96 
3.29 0.44 3.24 2.14 5.71 0.64 1.90 0.51 8.33 14.94 
5.11 3.85 3.93 


lm.sol<-lm(Y“X); summary (lm.sol) 


得 到 
Call: 
lm(formula = Y ~ XxX) 
Residuals: 
Min 1Q Median 3Q Max 


-4.1399 -0.8275 -0.1934 1.2376 3.1522 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -0.8313037 0.4416121 -1.882 0.0655 . 
X 0.0036828 0.0003339 11.030 4.11e-15 *** 


Signif. codes: 0 ’***’ O.001 ?x**’ O.01 ’*’” 0.05 ”.”0.1 ”1 


Residual standard error: 1.577 on 51 degrees of freedom 
Multiple R-Squared: 0.7046, Adjusted R-squared: 0.6988 
F-statistic: 121.7 on 1 and 51 DF, p-value: 4.106e-15 
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回归 方程 通过 t 检验 和 下 检验， 所 以 Y 对 六 的 一 元 经 验 回归 方程 为 
Y = —0.8313 + 0.003683X. 
再 作 回归 诊断 ， 画 出 标准 化 残 差 散 点 图 
y.rst<-rstandard(lm.sol); y.fit<-predict(lm.sol) 


plot(y.rst“y.fit) 
abline(0.1,0.5);abline(-0.1,-0.5) 





























其 图 形 由 图 6.9(a) 所 示 . 
oq 0 6 O 
8 pS 人 
a O 
站 O oo 
o © E o 二 do 。。 
有 切 ooo O 9° 六 9 
Ee S | . oo 和 o 
1 
人 
时 
O 
T 本 O 
T T T T T T T T T T 
0 2 4 6 8 10 -12 1.0 1.5 2.0 2.5 3.0 3.5 4.0 
yfit yn.fit 
(a) 异 方差 情况 (b) 变换 后 的 情况 


图 6.9: 例 6.6 的 标准 化 残 差 图 


直观 上 容易 看 出 , 残 差 图 从 左 向 右 逐 渐 散 开 呈 漏斗 状 , 这 是 残 差 的 方差 不 相 
等 的 一 个 征兆 ， 考虑 对 响应 变量 了 作 变 换 ， 作 开 方 运算 ， 相 应 的 R 程序 为 
1]m.new<-update(lm.sSol，Ssqrt(.)~.); coef(lm.new) 


其 中 update 是 模型 修正 函数 . coef 是 提取 回归 系数 ， 计算 结果 为 


(Intercept) xX 
0.582225917 0.000952859 
由 此 得 到 经 验方 程 


VY = 0.582225917 + 0.000952859X 
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即 


SS) 
| 


= (0.582225917 十 0.000952859X)? 
= 0.338987 十 0.001109558X 十 9.079403 x 10-"X2， 


再 画 出 变换 后 的 标准 化 残 差 散 点 图 
yn.rst<-rstandard(lm.new); yn.fit<-predict(lm.new) 


plot(yn.rst“yn.fit) 
其 图 形 由 图 6.9(b) 所 示 . 散 点 图 的 趋势 有 较 大 改善 . 
2. 残 差 的 Q-Q 图 
在 第 三 章 介绍 了 检验 正 态 分 布 的 方法 一 Q-Q 图 . 这 里 可 以 用 Q-Q 图 的 方法 
检验 残 差 的 正 态 性 . 
设 so 是 残 差 2 的 次 序 统计 量 ，i = 1,2,…,nn 令 


1 一 0.375 
四 一 更 -1 = 1,2,.… 
gd(i) (Fe) 2 ee ) 7 








其 中 B(x) 为 标准 正 态 分 布 N(0, 1) 的 分 布 函数 ， 于 (7) 为 反 函 数 . 称 qi) 为 él;) 
的 期 望 值 . 

可 以 证 明 , 若 (i = 1,2,…,n) 是 来 自 正 态 分 布 总 体 的 样本 ,， 则 点 《qd 6)) 
(i = 1,2,.…,n) 应 在 一 条 直线 上 ,因此 ， 若 残 差 的 正 Q-Q 图 中 的 点 的 大 致 趋势 
明显 地 不 在 一 条 直线 上 ,， 则 有 理由 怀疑 对 误差 的 正 态 性 假设 的 合理 性 ; 否则 可 认 
为 误差 的 正 态 性 假设 是 合理 的 . 

用 R 软件 画 正 态 Q-Q 残 差 图 非常 简单 ， 只 需 一 个 命令 

plot (model, 2) 

其 中 model 是 由 lm 生成 的 对 象 . 

3. 以 自 变量 为 横 坐 标的 残 差 图 

以 每 个 X;(1 < 7 < p) 的 各 个 观测 值 zz(l < i < n) 为 点 的 横 坐 标 ， 即 以 自 
变量 为 横 坐 标的 残 差 图 ， 与 拟 合 值 Y 为 模 坐 标的 残 差 图 一 样 ， 满 意 的 残 差 图 呈 
现 图 6.7(a) 的 水 平 带 状 . 如果 图 形 呈 现 图 6.7(b) 的 形状 ， 则 说 明 误 差 是 等 方差 
的 假设 不 合适 . 若 呈 现 图 6.7(c) 的 形状 ， 则 需要 在 模型 中 添加 Xi 的 高 次 项 ,或 
者 对 了 做 变换 . 
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例 6.15 画 出 例 6.6 关于 自 变 量 为 模 坐标 的 残 差 图 . 
解 : 在 作 完 成 回归 模型 后 ， 计 算 残 差 ， 并 画 出 图 形 . 
> y.Tes<-Tresid(]m.sol) 


> plot(y.res“x1); plot(y.res”x2) 


























图 形 如 图 6.10 所 示 . 
. 5 上 20 0 0 
x1 x2 
(a) 以 Xi 为 横 坐 标 (b) 以 Xs2 为 横 坐 标 


图 6.10: 例 6.6 的 以 XX 、 Xo 为 横 坐 标的 残 差 图 





从 图 6.10 可 以 看 出 ， 回 归 模 型 效果 是 好 的 . 
在 RR 软件 中 ，plot() 函数 可 以 画 出 回归 模型 的 残 差 图 ， 其 使 用 格式 为 
plot(x, which = 1:4, 





caption = c("Residuals vs Fitted", "Normal Q-Q plot", 
"Scale-Location plot", "Cook’s distance plot"), 

panel = points, 

sub.caption = deparse(x$call), main = "", 

ask = prod(par("mfcol"))<length(which)&&dev.interactive(), 


。。y 


id.n = 3, labels.id = names(residuals(x)), cex.id = 0.75) 


其 中 x 是 线性 回归 模型 ， which 是 1 至 4 的 全 部 或 某 个 子 集 ，1 表示 画 普 通 残 
差 与 拟 合 值 的 残 差 图 ， 2 表示 画 正 态 Q-Q 的 残 差 图 ; 3 表示 画 标准 化 残 差 的 开 
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方 与 拟 合 值 的 残 差 图 ，4 表示 画 Cook 统计 量 (在 后 面 介绍 ) 的 残 差 图 . caption 
是 图 题 的 内 容 ， 其 余 见 在 在 线 帮助 . 


6.5.4 ”影响 分 析 


所 谓 影响 分 析 就 是 探查 对 估计 或 有 异常 大 影响 的 数据 . 在 回归 分 析 中 的 一 个 
重要 假设 是 ,使 用 的 模型 对 所 有 数据 是 适当 的 . 在 应 用 中 ， 有 一 个 或 多 个 样本 其 
观测 值 似乎 与 模型 不 相符 ， 但 模型 拟 合 于 大 多 数 数据 ， 这 种 情况 并 不 罕见 ， 例 如 
例 6.11 第 三 组 数据 的 情况 . 

如 果 一 个 样本 不 遵从 某 个 模型 ， 但 其 余数 据 遵从 这 个 模型 ， 则 称 该 样本 点 为 
强 影响 点 (也 称 为 异常 值 点 ) 影响 分 析 的 一 个 重要 功能 是 区 分 这 样 的 样本 数据 . 

1. 帽子 矩阵 万 的 对 角 元 素 

由 式 (6.31) 得 到 ，Y = HY. 从 几何 上 讲 ，Y 是 Y 在 义 的 列 向 量 张 成 子 
空间 内 的 投影 5 并 且 满 足 

oY; 
py 
因此 ， hi; 的 大 小 可 以 表示 第 i 个 样本 值 对 7 影响 的 大 小 ， 再 考虑 7 的 方差 


Var( 切 ) = hg”, 





hii, 


因此 ， hi; 双 反 映 了 回归 值 8% 的 波动 情况 . 
由 投影 矩阵 五 的 性 质 得 到 ， 


2 一 1 


所 以 ， Hoaglin 和 Welsch(1978) 给 出 一 种 判断 异常 值 点 的 方法 ， 如 果 当 


2(p+1 
ii (6.39) 


则 可 认为 第 io 组 的 样本 影响 较 大 ， 可 以 结合 其 他 准则 ， 考 虑 是 否 将 其 剔除. 
由 于 帽子 矩阵 (投影 窍 阵 ) 万 的 对 角 线 上 的 元 素 hi; (i = 1 2，…,m) 是 很 重 
要 的 统计 信息 量 ， 因 此 R 软件 也 给 出 计算 函数 hatvalues() 和 hat(), 其 使 用 
格式 为 
5 由 于 五 ” = 瑟 , H? = 瑟 , 所 以 称 五 为 投影 矩阵 
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hatvalues (model ,inf1=lm.influence (model ,do.coef=FALSE),...) 
hat (x,intercept=TRUE) 


其 中 model 是 回归 模型 ， x 是 设计 甜 阵 X. 
2. DFFITS 准则 
Belsley, Kuh 和 Welsch (1980) 给 出 男 一 种 准则 .计算 统计 量 
2 
1— hs ovVi—h 
其 中 o 的 估计 量 用 60) 来 代 蔡 ， 对 于 第 ;个 样本 ， 如 果 有 


1 
Di(o)| > 2 一 一， (6.41) 
WA 


Di(o) 一 





(6.40) 


则 认为 第 i 个 样本 的 影响 比较 大 ， 应 引起 注意 . 
R 软件 给 出 了 DFFITS 准则 的 计算 函数 dffits(), 其 使 用 格式 为 
dffits(model, infl = , res = ) 
其 中 model 是 回归 模型 . 
例 6.16 用 DFFITS 准则 判断 例 6.2 中 的 异常 值 样本 点 . 
解 : 在 计算 出 回归 模型 后 ， 利 用 dffits() 函数 作 判 斯 . 
> p<-1; n<-nrow(forbes); d<-dffits(lm.sol) 
> cf<-1:n; cf[d>2*sqrt((p+1)/n)] 
[1] 12 


因此 ， 第 12 号 样本 点 可 能 是 异常 值 点 . 
3. Cook 统计 量 
Cook 在 1977 年 提出 了 Cook 统计 量 ， Cook 统计 量 定义 为 


(6- Bo) XTX(B — Be)) 
(p+ 1)02 


其 中 Oo 为 删除 第 i 个 样本 数据 后 的 估计 值 ， 由 余下 的 n 一 1 个 样本 数据 求 得 的 
回归 系数 . 经 过 推导 ， Cook 统计 量 可 以 改写 为 


1 岂 
D;=——— ?2, $= 1,2,..…,n, 6.43 
7 4 3 ) 7 ( ) 


D; = 9 (6.42) 
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其 中 7; 是 标准 化 残 差 . 
R 软件 给 出 了 计算 Cook 统计 量 的 计算 函数 cooks .distance(), 其 使 用 格 
式 为 
cooks.distance(model,infl=lm.influence (model ,do.coef=FALSE), 
res=weighted.residuals (model), 
sd=sqrt (deviance (model)/df .residual (model)), 
hat=infl$hat, ...) 
其 中 model 是 回归 模型 . 
直观 上 讲 ，Cook 统计 量 D; 越 大 的 点 , 越 可 能 是 异常 值 点 , 但 要 给 Cook 统 
计量 一 个 用 以 判定 蜡 常 值 点 的 临界 值 是 很 困难 的 , 在 应 用 上 要 视 具体 问题 的 实际 
情况 而 定 ， 


4. COVRATIO 准则 
利用 全 部 样本 回归 系数 估计 值 的 协 方差 阵 和 去 挥 第 i 个 样本 回归 系数 佑 计 
值 的 协 方差 阵 分 别 为 
Var(8) = 0? or ， Var(pa) = (XR 


其 中 X6) 是 X 剔除 第 ; 行 得 到 的 矩阵 .分别 用 6 和 6;) 蔡 代 上 式 中 的 o. 为 了 
比较 其 对 应 的 回归 系数 的 精度 ， 考 虑 其 协 方差 的 比 
det ( XBX0) (人 ] 





(6.44) 
如 果 有 一 个 样本 所 对 应 的 COVRATIO 值 离开 1 越 远 ， 则 越 认为 那个 样本 影响 
越 大 . 
R 软件 给 出 了 计算 COVRATIO 值 的 计算 函数 covratio(), 其 使 用 格式 为 


covratio(model, infl] = lm.influence(model, do.coef = FALSE), 


res = weighted.residuals (model)) 
其 中 model 是 回归 模型 . 


5. 小 结 
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上 面 介绍 了 四 种 分 析 强 影响 点 (异常 值 点 ) 的 方法 ， 每 种 方法 找到 的 点 是 否 
是 强 影响 点 还 需要 根据 具体 情况 进行 分 析 . 这 里 为 了 方便 计算 , 将 各 种 方法 编写 
成 一 个 函数 . 

编写 回归 诊断 函数 一 Reg_Diag(). 在 给 定 回 归 模 型 后 ， 计 算 回 归 模 型 的 普 
通 残 差 、 标 准 化 (内 学 生化 ) 残 差 、 外 学 生化 残 差 、 帽 子 官 阵 对 角 线 上 的 元 素 、 
DFFITS 统计 量 、Cook 距离 和 COVRATIO 统计 量 ， 并 根据 各 种 指标 的 特征 ， 
对 可 能 是 强 影响 点 的 样本 给 予 标 记 ， 便 于 对 这 些 点 进行 分 析 研究 . 

下 面 是 相应 的 R 程序 (程序 名 : Reg_Diag.BR) 
Reg_Diag<-function(fm){ 


n<-nrow(fm$model); df<-fm$df.residual 





p<-n-df-1; s<-rep(" ", n); 
res<-residuals(fm); si<-s; sil[abs(res)==max(abs(res))]<-"*" 
sta<-rstandard(fm); s2<-s; s2[abs(sta)>2] <-"*" 
stu<-rstudent (fm); s3<-s; s3[abs(sta)>2] <-"*" 
h<-hatvalues (fm); s4<-s; s4[h>2*(p+1)/n]<-"*" 
d<-dffits(fm); s5<-s; s5[abs(d)>2*sqrt((p+1)/n)]<-"*" 
c<-cooks.distance(fm); s6<-s; s6[c==max(c)] <-—"*" 
co<-covratio(fm); abs_co<-abs (co-1) 
s7<-s; s7[abs_co==max(abs_co)]<-"*" 
data.frame(residual=res, sil, standard=sta, s2, 
student=stu, s3, hat_matrix=h, s4, 
DFFITS=d, s5,cooks_distance=c, s6, 
COVRATIO=co, s7) 


在 程序 中 ， 对 最 大 残 差 绝对 值 的 样本 做 标记 ; 对 标准 化 残 差 和 外 学 生化 残 差 
绝对 值 大 于 2 的 样本 作 标 记 ; 对 于 hi > 2(p 十 1)/n 的 样本 作 标 记 ; 对 |DFFITS|; > 
2V(p 十 1)/n 的 样本 作 标 记 ; 对 最 大 的 Cooks 距离 的 样本 作 标记 ; 对 距 1 最 远 的 
COVRATIO 统计 量 的 样本 作 标 记 . 

例 6.17 智力 测试 数据 

表 6.9 是 教育 学 家 测试 的 21 个 儿童 的 记录 ， 其 中 针 是 儿童 的 年 龄 (以 月 为 

单位 ), Y 表示 某 种 智力 指标 ， 通 过 这 些 数据 ， 我 们 要 建立 智力 随 年 龄 变化 的 关 
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表 6.9: 儿童 智力 测试 数据 
X Y 
11 102 
10 100 
12 105 
42 57 
17 121 
11 86 
10 100 
解 : 输入 数据 (数据 框 ), 调用 函数 lm() 进行 求解 (程序 名 :; ”exam0617.R). 
intellect<-data.frame( 
x=c(15, 26, 10, 9，15，20，18，11， 20，7， 
9，10，11，11，10，12，42，17， 10) ， 
y=c(95, 71, 83, 91，102， 87，93， 104，94，113， 
96，83，84，102，100，105，57， 86，100) 

) 

lm.sol<-lm(y“x, data=intellect) 

summary (lm.so1) 

其 计算 结果 如 下 
Call: 


lm(formula = y 


~ x, data = intellect) 


Residuals: 
Min 1Q Median 3Q Max 
-15.604 -8.731 1.396 4.523 30.285 


Coefficients: 
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Estimate Std. Error t value Pr(>|t|) 
(Intercept) 109.8738 5.0678 21.681 7.31ie-15 *** 
bid -1.1270 0.3102 -3.633 0.00177 ** 


Signif. codes: 0 ’***’ O.001 x**’ O.01 ’*’” 0.05 ”.”0.1 ”1 


Residual standard error: 11.02 on 19 degrees of freedom 
Multiple R-Squared: 0.41, Adjusted R-squared: 0.3789 
13.2 on 1 and 19 DF, p-value: 0.001769 


模型 通过 工 检验 和 下 检验， 因此 ， 回 归 方 程 为 


F-statistic: 





入 


Y = 109.8738 — 1.1270X. 


下 面 作 回 归 诊 断 ， 调用 回归 诊断 函数 Reg_Diag() 


> Source("Reg_Diag.R"); Reg_Diag(lm.sol) 


residual si 


standard s2 


student s3 hat_matrix s4 


1 2.0309931 0.18883222 0.18396849 0.04792248 
2 -9.5721288 -0.94440639 -0.94158335 0.15451323 
3 -15.6039514 -1.46226437 -1.51081192 0.06281578 
4 -8.7309404 -0.82158155 -0.81426336 0.07054521 
5 9.0309931 0.83965939 0.83286292 0.04792248 
6 -0.3340623 -0.03147039 -0.03063183 0.07261896 
7 3.4119599 0.31891861 0.31124676 0.05798959 
8 2.5230375 0.23566531 0.22971575 0.05666993 
9 3.1420707 0.29716139 0.28991014 0.07985823 
10 6.6659377 0.62796572 0.61766026 0.07261896 
11 11.0150818 1.04797524 1.05084716 0.09075485 
12 -3.7309404 -0.35108151 -0.34283148 0.07054521 
13 -15.6039514 -1.46226437 -1.51081192 0.06281578 
14 -13.4769625 -1.25882099 -1.27977575 0.05666993 
15 4.5230375 0.42247610 0.41315320 0.05666993 
16 1.3960486 0.13082533 0.12739342 0.06281578 
17 8.6500264 0.80601240 0.79828114 0.05210768 


18 
19 
20 
21 


‘Oi OO oo WD Pn- 


DD DD PP 天 记 记 记 
OO OO OO oo 让 W NL ~ OO 


达到 最 大 . 因此 ， 这 些 结果 可 以 分 析出 ， 第 19 号 样本 点 对 响应 变 


-5.5403062 
30.2849710 
-11.4769625 
1.3960486 


* 
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-0.85153932 
2.82336807 
-1.07201020 
0.13082533 


* 


-0.84511086 
3.60697972 
-1.07648108 
0.12739342 


0.65160998 


* 0.05305030 


0.05666993 
0.06281578 


DFFITS s5 cooks_distance s6 COVRATIO s7 


.041274036 
.402520687 
.391140045 
.224328534 
.186855984 
.008571736 
.077223953 
.056303487 
.085407473 
.172840518 
.331996854 
.094449643 
.391140045 
.313673908 


0.101264129 
0.032981383 
0.187166128 


二 日: 
0. 


.155778731 
.853737107 
263846244 
032981383 


8. 
.149796e-02 
.165814e-02 
.561596e-02 
.774366e-02 
.877627e-05 
.130575e-03 
.668209e-03 
.831949e-03 
.543952e-02 
.481014e-02 
.677623e-03 
.165814e-02 
.759781e-02 
.361216e-03 
.735845e-04 
.785650e-02 
.781120e-01 
.232883e-01 
.451889e-02 
.735845e-04 


oO OW OO Po oo oO PW PW WW PP ON % 


974064e-04 


FF DRNDDP 上 上品 口上 上 上 上 上 上 上 上 上 口上 斑 上 


.1658918 
.1969990 
.9363474 
.1151027 
.0850411 
.2013200 
.1701576 
.1742373 
.1996682 
.1520913 
.0878396 
.1832616 
.9363474 
.9923313 
.1590453 
.1867369 
.0964388 
.9586827 
.3964316 
.0425728 
.1867369 


x* 


* 
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从 上 述 结果 来 看 ， 第 19 号 样本 点 残 差 达到 最 大 ， 且 标准 化 残 差 和 外 学 生化 
残 差 的 绝对 值 超过 2, DFFITS 统计 量 超过 规定 指标 ;第 18 号 样本 点 的 /asals， 
DFFITS 统计 量 和 COVRATIO 统计 量 超过 规定 指标 , 并 且 对 应 的 Cook 统计 量 


第 18 号 样本 点 对 自 变 量 的 影响 较 大 . 





上 膨 . 辐 / 


蛙 尺 


啊 较 大 ， 
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为 了 能 够 说 明 问题 ， 我 们 从 残 差 图 和 回归 散 点 来 作 进一步 的 说 明 . 为 了 便于 
分 析 ， 将 四 幅 画 在 一 张 图 上 画 出 图 形 的 R 命令 如 下 ， 得 到 的 图 形 如 图 6.11 所 
示 . 
Im(formula = y ~ x, data = intellect) 








Residuals vs Fitted Scale-Location plot 
3 要 9 
= 
© 辟 
w ~ 出 
a ee OO 
如 = 
再 N 
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5 oo 
5 
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S 
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O OO 
品 | 
| 
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图 6.11: 智力 测试 数据 的 残 差 图 和 回归 图 


opar <- par(mfrow = c(2, 2), oma = c(0, 0, 1.1, 0), 
mar = c(4.1, 4.1, 2.1, 1.1)) 

plot(lm.sol, 1); plot(lm.sol, 3); plot(lm.sol, 4) 

attach(intellect) 

plot(x, y); X<-x[18:19]; Y<-y[18:19] 
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text(X，Y，1abels=18:19，adj=1.2); abline(lm.sol) 
par (opar) 
在 上 述 程序 中 , 使 用 了 par() 函数 ， 该 函数 图 形 参数 设置 函数 ， 其 具体 的 使 
用 方法 请 见 在 线 帮助 . 
图 6.11 的 第 一 张 图 是 残 差 散 点 图 ， 从 图 形 看 出 ， 第 19 号 样本 点 明显 远离 其 
他 的 样本 点 . 图 6.11 的 第 二 张 图 是 标准 化 残 差 绝对 值 的 开 方 的 残 差 图 ,第 19 号 
样本 点 标准 化 残 差 的 开 方 大 于 1.5, 说 明 第 19 号 样本 点 在 95% 的 范围 以 外 .图 
6.11 的 第 三 张 图 表示 的 是 Cook 距离 ， 这 里 是 第 18 号 样本 点 的 值 最 大 ， 因 此 ， 
第 18 号 样本 点 可 能 是 强 影响 点 (异常 值 点 ). 为 了 显示 分 析 的 结果 ， 图 6.11 的 第 
四 张 图 给 出 了 回归 直线 和 样本 点 的 散 点 图 ， 第 18 号 样本 点 明显 偏 右 , 第 19 号 
样本 点 明显 偏 上 . 
对 于 多 元 回归 模型 ， 虽然 我 们 无 法 画 出 回归 方程 与 数据 的 的 图 形 , 但 通过 回 
归 诊 断 ， 我 们 还 是 能 够 分 析出 数据 的 问题 所 在 , 例如， 对 于 智力 测试 数据 ,第 18 
号 样本 的 年 龄 是 否 有 问题 ， 而 第 19 号 样本 的 测试 结果 是 否 有 问题 ， 这 些 需 要 作 
进一步 的 研究 . 
在 R 软件 中 ， 函 数 influence.measures() 可 以 作 回归 诊断 的 总 括 ， 它 的 
使 用 格式 为 


influence.measures (model) 


其 中 model 是 由 lm 或 glm 构成 的 对 象 . 其 返回 值 是 一 个 列表 ， 列 表 中 包括 DF- 
FITS 统计 量 ， COVRATIO 统计 量 ， Cooks 距离 等 . 


























6.5.5 ”多 重 共 线 性 


当 自 变量 彼此 相关 时 ,回归 模型 可 能 非常 令 人 糊涂 . 佑 计 的 效应 会 由 于 模型 
中 的 其 他 上 自 变量 而 改变 数值 ， 甚 至 是 符号 . 故 在 分 析 时 ， 了 人 解 自 变 量 间 的 关系 的 
影响 是 很 重要 的 . 这 一 复杂 问题 常 称 为 共 线 性 或 多 重 共 线 性 . 


1. 什么 是 多 重 共 线 性 
如 果 存 在 某 些 常数 co, cl 和 c2, 使 得 线性 等 式 


c1X1 十 Co Xo» 一 :C0 (6.45) 


对 于 数据 中 所 有 数据 中 的 样本 都 成 立 , 则 两 个 自 变 量 Xi 和 X 为 精确 共 线 性 的 . 
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在 实际 中 ， 精 确 共 线 性 是 偶然 发 生 的 ， 因 此 ， 如 果 等 式 (6.45) 近似 地 对 测量 
数据 成 立 ， 则 有 近似 共 线 性 . 一 个 常用 但 不 是 完全 合适 的 Xi 与 Xz 间 的 共 线 性 
程度 的 度量 ， 是 它们 样本 相关 系数 的 平方 rf。. 精确 共 线 性 对 应 于 rfs = 1; 非 共 
线性 对 应 于 六 = 0. 当 7 越 接 近 于 1, 近似 共 线 性 越 强 . 通常 ， 我 们 去 掉 形 容 
词 “近似 ”, 当 rt 较 大 时 ， 我 们 说 Xi 和 Xs 是 共 线 性 的 . 

对 于 p(> 2) 个 自 变 量 ， 如 果 存 在 常数 co c1,*…, co, 使 得 





ci1X1 | coX» 由 有 2 cpXp 二 C0 (6.46) 

近似 成 立 ， 则 表示 这 p 个 变量 存在 多 重 共 线 性 . 

2. 多 重 共 线性 的 发 现 

将 X,Y@),… ,Zp) 是 和 目 变量 XXX 经 过 中 心 化 和 标准 化 得 到 的 向 
量 *, 记 和 = (zo0),zo……Zo) 设 入 为 X7X 的 一 个 特征 值 ，y 为 对 应 的 特征 
向 量 ， 其 长 度 为 1 即 op=1. 若 入 s0, 则 

X7Xo= MXos0. 

用 27 左 乘 上 式 ， 得 到 


Pp XIXY= Mp p=ATO, 


所 以 有 


即 
PI1T01) 十 27Z0) 十 :十 2pZO) TO, (6.47) 
其 中 op = (pl 8p2,…, py) . 式 (6.47) 表明 , 向 量 Xo), x02),…, Xp) 之 间 有 近似 的 
线性 关系 ,也 是 说 ， 对 于 自 变 量 Xi, Xo，…, Xp 存在 co c1,…, cp, 使 得 式 (6.46) 
近似 成 立 ， 即 自 变 量 之 间 存 在 多 重 共 线性 . 
度量 多 重 共 线性 严重 程度 的 一 个 重要 指标 是 方 矩 X7X 的 条 件数 ， 即 


| a Mmax( XTX) 
Xmin(XTX) 











kz(X X) = 和 | X) 


“关于 数据 中 心 化 与 标准 化 的 方法 将 在 8.2.1 节 作 详细 介绍 
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其 中 和 max(X? XX), Amin(X”X) 表示 方 矩 X7X 的 最 大 、 最 小 特征 值 . 

直观 上 ， 条 件数 刻画 了 X“X 的 特征 值 差异 的 大 小 ， 从 实际 应 用 的 经 验 角 
度 ， 一 般若 % < 100, 则 认为 多 重 共 线性 的 程度 很 小 ; 若 100 < < < 1000, 则 认 
为 存在 中 等 程度 或 较 强 的 多 重 共 线 性 ; 若 4 > 1000, 则 认为 存在 严重 的 多 重 共 线 

在 及 软件 中 ， 函 数 kappa() 计算 矩阵 的 条 件数 ， 其 使 用 方法 为 

kappa(z, exact = FALSE, ...) 
其 中 z 是 矩阵 ， exact 是 逻辑 变量 ， 当 exact=TRUE 时 ,精确 计 算 条 件数 ， 否 则 
近似 计算 条 件数 . 
例 6.18 考虑 一 个 有 六 个 回归 自 变量 的 线性 回归 问题 , 原始 数据 列 在 表 6.10 中 . 
这 里 共有 12 组 数据 ， 除 第 一 组 外 ， 自 变量 XX, XX2,.…,X6 的 其 余 11 组 数据 满 
表 6.10: 原始 数据 





序号 Y Xl 六 2 X; Xa Xs Xs6 
1 |10.006 8.000 1.000 1.000 1.000 0.541  —0.099 
2 9.737 8.000 1.000 1.000 0.000 ”0.130 0.070 
3 | 15.087 8.000 1000 1.000 0.000 2.116 0.115 
4 8.422 0.000 0.000 9.000 1.000 -2.397 0.252 
5 8.625 0.000 0.000 9.000 1.000 -0.046 ”0.017 
6 |16.289 0.000 0.000 9.000 1.000 ”0.365 1.504 
7 5.958 2.000 7.000 0.000 ”1.000 1.996 ”一 0.865 
8 9.313 2.000 7.000 0.000 1.000 0.228 -0.055 
9 |12.960 2.000 7.000 0.000 1.000 1.380 0.502 
10 5.541 0.000 0.000 0.000 10.000 -0.798  —0.399 
11 8.756 0.000 0.000 0.000 10.000 0.257 -0.101 
12 | 10.937 0.000 0.000 0.000 10.000 ”0.440 ”0.432 
足 线性 关系 


bap, ,Ey 
试用 求 矩 阵 条 件数 的 方法 ， 分 析出 自 变 量 间 存 在 多 重 共 线性 . 
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解 : 用 数据 框 的 方法 输入 数据 ， 由 上 自 变量 Xi X2,.… ,Xe 中 心 化 和 标准 化 得 
到 的 矩阵 X7X 本 质 上 就 由 这 些 自 变量 生成 的 相关 矩阵， 再 用 kappa() 函数 求 
出 矩阵 X7X 的 条 件数 ， 用 eigen() 函数 求 出 怎 阵 XXX 的 最 小 特征 值 和 相应 
的 特征 向 量 ， 求解 问题 的 R 程序 如 下 (程序 名 exam0618.R). 
collinear<-data.frame( 
Y=c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289, 
5.958，9.313，12.960，5.541，8.756，10.937) ， 
X1=rep(c(8，0，2，0)，c(3，3，3，3))， 
X2=rep(c(1, 0, 7, 0), c(3, 3, 3, 3)), 
X3=rep(c(1, 9, 0), c(3, 3, 6)), 
X4=rep(c(1, 0, 1, 10), c(1, 2，6，3))，, 
X5=c(0.541，0.130，2.116，-2.397，-0.046，0.365， 
1.996，0.228，1.38，-0.798，0.257，0.440) ， 
X6=c(-0.099，0.070，0.115，0.252，0.017，1.504， 
-0.865，-0.055，0.502，-0.399，0.101，0.432) 
) 
XX<-cor(collinear[2:7]) 
kappa (XX ,exact=TRUE) 


得 到 条 件数 是 二 2195.908 > 1000, 认为 有 严重 的 多 重 共 线性 . 

进一步 , 找 出 哪些 变量 是 多 重 共 线 性 的 . 计算 矩阵 的 特征 值 和 相应 的 特征 向 
量 

> eigen(XX) 
得 到 

Mmin = 0.001106, ww = (0.4476, 0.4211, 0.5417, 0.5734, 0.006052, 0.002167)". 
即 
0.4476z0) 十 “0.4211zo) + 0.5417z(3) + 0.5734zx04) 

+ 0.006052z(s) + 0.002167z(6) ~ 0 
由 于 zx(5), Z(6) 前 的 系数 近似 为 0, 因此 ， 有 


0.4476z0) + 0.4211z02) + 0.5417z(a) + 0.5734z ~ 0， (6.48) 
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所 以 存在 着 C0，C1，C2，C3，C4 使 得 


C1X1 | CoX» | C3X3 | C4X14 ~ Co. 





这 说 明 变 量 X1, X2, Xs, X4 存在 着 多 重 共 线 性 ， 与 题目 中 给 的 变量 是 相同 的 . 
注意 ;kappa() 函数 也 可 以 求 线性 模型 的 条 件数 ， 但 实际 上 是 计算 由 上 自 变 
量 X1, XX2,.…, Xp,Y 构成 矩阵 的 条 件数 ， 即 


kappa(lm.model) = k([X1 Xa... X,Y]). 


6.6 ”广义 线性 回归 模型 


广义 线性 模型 (GLM) 是 常见 正 态 线性 模型 的 直接 推广 ， 它 可 以 适用 于 连续 
数据 和 离散 数据 ， 特 别 是 后 者 ， 如 属性 数据 、 计 数 数据 .这 在 应 用 上 ， 尤 其 是 生 
物 、 医 学 、 经 济 和 社会 数据 的 统计 分 析 上 ， 有 着 重要 意义 . 

广义 线性 模型 首先 由 Nelder 和 Wedderburn (1972) 提出 . 这 些 模型 要 求 响 
应 变量 只 能 通过 线性 形式 依赖 于 处 变量 ， 从 而 保持 了 线性 自 变量 的 思想 . 它们 对 
线性 模型 进行 了 两 个 方面 的 推广 : 通过 设 定 一 个 连接 函数 ,将 响应 变量 的 期 望 与 
线性 自 变 量 相 联 系 ,以 及 对 误差 的 分 布 给 出 一 个 误差 函数 . 这 些 推广 允许 许多 线 
性 模型 的 方法 能 被 用 于 一 般 的 问题 . 在 线性 回归 中 ,我 们 的 目标 是 将 响应 变量 y; 
作为 p 个 自 变 量 zu za ,Zpi i 二 1,2,…,n 的 函数 建立 模型 . 

对 于 广义 线性 模型 应 有 以 下 三 个 概念 : 第 一 是 线性 自 变 量 ， 它 表明 第 i 个 
响应 变量 的 期 望 值 B(y;) 只 是 能 过 线性 自 变量 867x; 而 依赖 于 xi, 其 中 如 通常 一 
样 ， 6 是 未 知 参数 的 (p 十 1) x 1 癌 量 ， 可 能 包含 截 距 . 第 二 是 连接 函数 ， 它 说 
明 线 性 上 自 变量 和 (wy;) 的 关系 ， 给 出 了 线性 模型 的 推广 ， 第 三 是 误差 函数 ， 它 说 
明 广 义 线性 模型 的 最 后 一 部 分 随机 成 份 . 我 们 保留 样本 为 相互 独立 的 假设 , 但 去 
掉 可 加 和 正 态 误差 的 假设 .可 以 从 指数 型 分 布 族 中 作 选 一 个 作为 误差 函数 . 

表 6.11 给 出 了 广义 线性 模型 中 常见 的 连接 函数 和 误差 汕 数 ， 例如， 对 于 正 
态 线性 模型 ， 假 设 y; 是 正 态 分 布 ， 均 值 为 zy 6, 未 知 方差 o?， 如 果 我 们 假设 y; 
是 Poisson 随机 变量 ， 均 值 为 exp(x7 9), 我 们 得 到 Poisson 回归 模型 . 











6.6.1 与 广义 线性 模型 有 关 的 R 函数 
R 软件 提供 了 拟 合计 算 广义 线性 模型 的 函数 glm(), 其 命令 格式 如 下 
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典型 误差 函数 
恒 等 正 态 分 布 
对 数 | z78 = mn BO Poisson 分 布 
Logit | z76 = LogitB(y) = 二 项 分 布 
道 Gamma 分 布 


fitted.model <- glm(formula, family=family.generator, 
data=data.frame) 
其 中 formula 是 拟 合 公式 ， 这 里 的 意义 与 线性 模型 相同 ， family 是 分 布 族 ， 
即 前 面 讲 到 的 广义 线性 模型 的 种 类 ， 如 正 态 分 布 、 Poisson 分 布 、 二 项 分 布 等 . 
data 是 数据 框 ， 这 里 的 意义 与 线性 模型 相同 . 
对 于 每 个 分 布 族 (family), 提供 了 相应 的 连接 函数 ， 如 表 6.12 所 示 . 


表 6.12: 族 与 相关 的 连接 函数 


分 布 族 (family) 连接 函数 


binomial logit, probit, cloglog 

gaussian identity 

Gamma identity, inverse, log 
inverse.gaussian 1/mu“2 

poisson identity, log, sqdrt 

quasi logit, probit, cloglog, identity, 


inverse, log, 1/mu“’2, sqrt 





有 了 这 些 分 布 族 和 连接 函数 ， 我 们 就 可 和 完成 相应 的 广义 线性 模型 的 似 合 问 
题 . 下 面 就 各 种 不 同 的 分 布 族 进行 分 析 . 


6.6.2 ” 正 态 分 布 族 
正 态 分 布 族 的 使 用 方法 是 
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fm <- glm(formula, family = gaussian(link = identity) ， 
data = data.frame) 
式 中 link = identity 可 以 不 写 ， 因为 正 态 分 布 族 的 连接 函数 缺 省 值 是 恒 等 
(identity). 事实 上 , 整个 参数 family = gaussian 也 可 以 不 写 , 因为 分 布 族 的 缺 
省 值 就 是 正 态 分 布 . 
从 表 6.11 可 以 看 出 ， 正 态 分 布 族 的 广义 线性 模型 实际 上 与 线性 模型 是 相同 

的 ， 也 就 是 说 ， 

fm <- glm(formula, family = gaussian, data = data.frame) 
与 线性 模型 

fm <- lm(formula, data = data.frame) 


有 完全 相同 的 计算 结果 ， 但 效率 确 低 得 多 . 








6.6.3 ”二 项 分 布 族 


在 二 项 分 布 族 中 ， logistic 回归 模型 是 最 重要 的 模型 ， 在 某 些 回归 问题 中 ， 
响应 变量 是 分 类 的 ， 经 常 是 或 者 成 功 ， 或 者 失败 . 对 于 这 些 问题 ， 正 态 线性 模型 
显然 是 不 合适 的 ， 因 为 正 态 误差 不 对 应 一 个 0-1 响应 . 在 这 种 情况 下 ， 可 用 一 种 
重要 的 方法 称 为 logistic 回归 . 

对 于 响应 变量 Y 有 2 个 自 变 量 (或 称 为 解释 变量 ), 记 为 Xi Xo2,…,Xy. 在 
Dp 个 自 变量 的 作用 下 出 现成 功 的 条 件 概 率 记 为 P= P{Y = 1|Xi, Xo,……, Xp}, 那 
么 logistic 回归 模型 为 

exp(Bo + PIXi+ ot: PpXy) 
1+exp(Bo + BiXit+ Pzt. + BXp) 


其 中 称 bo 为 常数 项 或 截 距 ， 称 B162,…, Bp 为 logistic 模型 回归 系数 . 
从 公式 (6.49) 可 以 看 出 ， logistic 回归 模型 是 一 个 非 线 性 回归 模型 ， 自 变 
量 Xj(j = 1,2,…,p) 可 以 是 连续 变量 ， 也 可 以 是 分 类 变量 ， 或 哑 变 量 (dummy 
variable) 对 自 变量 X; 任意 取 值 ，B0 十 BiXi1 十 BoXo 十 …: 十 BpXy 在 一 00 到 十 co 
变化 时 ， 公 式 (6.49) 的 比值 总 在 0 到 1 之 间 变 化 ， 这 正 是 概率 P 的 取 值 区 间 . 
对 公式 (6.49) 作 logit 变换 ， logistic 回归 模型 可 以 变 成 下 列 线性 形式 : 





(6.49) 
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从 式 (6.50) 可 以 看 出 , 我 们 能 够 使 用 线性 回归 模型 对 参数 进行 估计 . 这 就 是 
logistic 回归 模型 属于 广义 线性 模型 的 原因 . 

用 R 软件 计算 logistic 回归 模型 的 公式 为 

fm <- glm(formula, family = binomial(link = logit), 
data=data.frame) 

式 中 link = logit 中 以 不 写 , 因为 logit 是 二 项 分 布 族 连 接 函 数 是 省 缺 状 态 . 

在 用 glm() 函数 作 logistic 回归 模型 时 ， 对 于 公式 formula 有 两 种 输入 方 
法 ,一 种 方法 是 输入 成 功 和 失败 的 次 数 ， 男 一 种 象 线性 模型 通常 数据 的 输入 方 
法 ， 这 里 用 两 个 例子 说 明 其 数据 的 输入 和 glm() 函数 的 使 用 方法 . 
例 6.19 R. Norell 实验 

为 研究 高 压 电线 对 牲畜 的 影响 ，。 RR. Norell 研究 小 的 电流 对 农场 动物 的 影 
响 . 他 在 实验 中 ， 选 择 了 7 头 ，6 种 电击 强度 ， 0,1,2,3,4,5 富安 每 头 牛 被 电 
击 30 下 ， 每 种 强度 5 下 ， 按 随机 的 次 序 进行 ， 然 后 重复 整个 实验 ， 每 头 牛 总 共 
被 电击 60 下 . 对 每 次 电击 ， 响 应 变量 一 嘴巴 运动 ， 或 者 出 现 ， 或 者 未 出 现 . 表 
6.13 中 的 数据 给 出 每 种 电击 强度 70 次 试验 中 响应 的 总 次 数 . 试 分 析 电 击 对 牛 


表 6.13: 7 头 牛 对 6 种 不 同 强度 的 非常 小 的 电击 的 响应 


电流 ( 毫 安 ) 试验 次 数 响应 次 数 响应 的 比例 
0 


0.000 

0.129 

0.300 

0.671 

0.857 

0.900 
的 影响 


解 : 用 数据 框 形式 输入 数据 ， 再 构造 矩阵 ， 一 列 是 成 功 (响应 ) 的 次 数 ， 男 
一 列 是 失败 (不 响应 ) 的 次 数 ， 然 后 再 作 logistic 回归 . 其 程序 如 下 (程序 名 : 
exam0619 .BR) 





CU A 本 QW DD 


norell<-data.frame(l 


6.6 广义 线性 回归 模型 


x=0:5, n=rep(70,6), success=c(0,9,21,47,60,63) 
) 


norell$Ymat<-cbind(norell$success, norell$n-norell$success) 


glm.sol<-glm(Ymat“x, family=binomial, data=norell) 


summary (glm.so01) 


其 计算 结果 为 
Call: 


glm(formula = Ymat ~ x, family = binomial, data = norell) 


Deviance Residuals: 
1 2 3 4 5 6 
-2.2507 0.3892 -0.1466 1.1080 0.3234 -1.6679 


Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) -3.3010 0.3238 -10.20 <2e-16 *** 
x 1.2459 0.1119 11.13 <2e-16 *** 
Signif. codes: 0 ’***’ 0.001 ?x**’ 0.01 ’*’” 0.05 ”.” 0.1) 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 250.4866 on 5 degrees of freedom 
Residual deviance: 9.3526 on 4 degrees of freedom 


AIC: 34.093 


Number of Fisher Scoring iterations: 4 


即 fo = 一 3.3010, 0 = 1.2459. 并 且 回 归 方程 通过 了 检验 ， 因 此 ， 





”exp(-3.3010 十 1.2459X) 
1 十 exp( 一 3.3010 十 1.2459X)， 


其 中 六 是 电流 强度 (单位 ; 毫 安 ). 
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回归 模型 为 
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与 线性 回归 模型 相同 ， 在 得 到 回归 模型 后 ， 可 以 作 预 测 ， 例 如 ， 当 电流 强度 
为 3.5 坚 安 时 ， 有 响应 的 牛 的 概率 为 多 少 ? 
> pre<-predict(glm.sol, data.frame(x=3.5)) 
> p<-exp(pre)/(1+exp(pre)); p 
[1] 0.742642 
即 74.26%. 
可 以 作 控 制 ， 如 有 50% 的 牛 有 响应 ， 其 电流 强度 为 多 少 ? 当 P = 0.5 时 ， 
ln -与 二 0, 所 以 ，X = 一 /6 
> X<- - glm.sol$coefficients[[1]]/glm.sol$coefficients[[2]] 
> 又 
2.649439 


即 2.65 毫 安 的 电流 强度 ， 可 以 使 50% 的 牛 有 响应 . 
最 后 画 出 响应 的 比例 与 logistic 回归 曲线 画 。 R 软件 的 绘图 命令 如 下 ， 得 到 
的 图 形 由 图 6.12 所 示 . 
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图 6.12: 响应 比例 关于 强度 的 拟 全 logistic 回归 曲线 


d<-seq(0, 5, len=100) 


6.6 广义 线性 回归 模型 


pre<-predict(glm.sol, data.frame(x 


p<-exp (pre)/ (i+exp (pre)) 


norell$y<-norell$success/norell$n 


= d)) 


plot (norell$x, norell$y); lines(d, p) 


在 程序 中 ， 


d 是 给 出 曲线 横 坐 标的 点 ， 


pre 是 计算 预测 值 ， 


率 . 用 plot 函数 和 lines 给 出 散 点 图 和 对 应 的 预测 曲线 . 
例 6.20 50 位 急性 淋巴 细胞 性 白血病 病人 ， 在 入 院 治疗 时 取得 了 外 辕 血 中 的 细 
胞 数 Xi1( 千 个 /mm); 淋巴 结 浸润 等 级 XY (分 为 0 1 2 3 级 ); 出院 后 有 无 巩 国 
“0” 表 示 无 巩 国治 疗 ) 通过 随访 取得 病人 的 生存 
时 间 ， 并 以 变量 = 0 表示 生存 时 间 在 1 年 以 内 ，Y = 1 表示 生存 时 间 在 1 年 
或 1 年 以 上 .关于 Xi X2, XX3 和 YY 的 观测 数据 ， 如 表 6.14 所 示 . 试用 Logistic 
回归 模型 分 析 病人 生存 时 间 长 短 的 概率 与 X1, X2, Xs 的 关系. 


治疗 X3(“1” 表 示 有 巩固 治疗 ， 


解 。 输入 数据 ， 用 glm() 函数 计算 (程序 名 : 


life<-data.frame(l 


exam0620 .R). 


X1=c(2.5，173，119，10，502，4，14.4，2，40，6.6， 


21.47 258， .2557 6， 
Sly Zid els dl 


2 0, 2 2 4.3, 
X2=rep(c(0，2，0， 
昌之 
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Re 
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上 上 上 DD 


glm.sol<-glm(Y-X1+X2+X3，family=binomial ， 


Summary(glm.Sol) 


计算 结果 如 下 : 
Call: 


10.8，21.6，2，3.4， 
1525 .33553927 .60254 254， 
34.7，28.4，0.9，30.6，5.8，6.1，2.7，4.7， 


32，1.4) ， 


QO: .2:30 2 0, 


0，1，0，1，0， 
和 
10) ) 


data=1life) 
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p 是 相应 的 预测 概 


128，35 ， 


2， 


1) ， 
二 22799075 
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表 6.14: 50 位 急性 淋巴 细胞 性 白血病 病人 生存 数据 


让 X!  X, 
1 0 0 1.2 2 
2 0 0 3.5 0 
3 0 0 39.7 0 
4 0 0 62.4 0 
5 0 0 2.4 0 
6 0 0 34.7 0 
7 1 0 28.4 2 
8 0 0 0.9 0 
9 0 0 30.6 2 
10 0 0 5.8 0 
11 1 0 6.1 0 
12 0 0 2.7 2 
13 0 0 4.7 0 
14 0 0 128.0 2 
15 1 0 35.0 0 
16 0 1 2.0 0 
17 1 1 8.5 0 
18 1 1 2.0 2 
19 1 1 2.0 0 
20 1 1 4.3 0 
21 1 1 244.8 2 
22 0 1 4.0 0 
23 1 1 5.1 0 
24 1 1 32.0 0 
25 1 1 1.4 0 
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6.6 广义 线性 回归 模型 


glm(formula =Y ~ Xi1 + X2 
Deviance Residuals: 
Min 1Q Median 


-1.6960 -0.5842 -0.2829 


Coefficients: 


Estimate Std. 
(Intercept) -1.696538 0. 
.005683 0.409 0.682308 


X1 0.002326 0 
X2 -0.792177 0. 
X3 2.830373 0 


Signif. codes: 0 ’***’ 0. 


(Dispersion parameter for 


Null deviance: 67.301 
Residual deviance: 46.567 
AIC: 54.567 


+ X3, family = binomial, data = life) 


3Q Max 
0.7436 1.9292 


Error Z Value Pr(>|z|) 


658635 -2.576 0.010000 ** 


487262 -1.626 0.103998 


.793406 3.567 0.000361 *** 


O001 ?**’” 0.01 ?#” 0.05 ”.”0.1 ”?”1 


binomial family taken to be 1) 


on 49 degrees of freedom 


on 46 degrees of freedom 


Number of Fisher Scoring iterations: 5 


即 回归 模型 为 


exp(—1.696538 十 0.002326X1 — 0.792177X2 + 2.830373X;) 
1+exp(1.696538 + 0.002326X1 — 0.792177X + 2.830373Xs) 
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用 上 述 回 归 模 型 作 观 测 ， 辱 一 个 病人 的 前 两 项 的 指标 观测 值 为 zl = 5, x2 = 
2, 夺 无 巩固 治疗 (zs = 0), 则 1 年 以 上 的 存活 概率 
> pre<-predict(glm.sol, data.frame(X1=5,X2=2,X3=0)) 


> p<-exp(pre)/(1+exp(pPre)); p 


[1] 0.03664087 


为 3.66%. 寿 进 行 了 巩固 性 治疗 (zs = 1), 则 1 年 以 上 的 存活 概率 
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> pre<-predict(glm.sol, data.frame(X1=5,X2=2,X3=1)) 
> p<-exp(pre)/(1+exp(pPre)); p 
[1] 0.3920057 


为 39.20%. 比 没有 巩固 治疗 提高 了 10.699 倍 . 

实际 上 ， 用 上 述 回归 方程 作 预 测 还 存在 一 些 问题 ， 这 是 因为 在 得 到 logistic 
回归 模型 时 ,参数 51 没有 通过 检验 ， 其 P- 值 为 0.6823. 可 以 类 似 于 线性 模型 ， 
用 step() 作 变 量 筛选 . 
> glm.new<-step(glm.sol) 


Start: AIC= 54.57 
Y~ Xi1 + X2 + X3 





Df Deviance AIC 
— X1 1 46.718 52.718 
<none> 46.567 54.567 
— X2 1 49.502 55.502 
- X3 1 63.475 69.475 


Step: AIC= 52.72 
Y ~” X2 + X3 


Df Deviance AIC 
<none> 46.718 52.718 
- X2 1 49.690 53.690 
— X3 1 63.504 67.504 


Call: glm(formula = Y ~ X2 + X3, family = binomial, data = life) 
Coefficients: 


(Intercept) X2 X3 
-1.642 -0.707 2.784 
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Degrees of Freedom: 49 Total (i.e. Null); 47 Residual 
Null Deviance: 67.3 
Residual Deviance: 46.72 AIC: 52.72 
再 用 summary() 函数 显示 模型 的 细节 . 
> summary (glm.new) 
Call: 
glm(formula = Y ~ X2 + X3, family = binomial, data = life) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.6849 -0.5950 -0.3033 0.7442 1.9073 


Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) -1.6419 0.6381 -2.573 0.010082 +* 

X2 -0.7070 0.4282 -1.651 0.098750 . 

X3 2.7844 0.7797 3.571 0.000355 *** 

Signif. codes: 0 ’***’ O.001 ’**’ O.01 ’*’” 0.05 ”.”0.1 ”?”1 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 67.301 on 49 degrees of freedom 
Residual deviance: 46.718 on 47 degrees of freedom 
AIC: 52.718 
从 计算 结果 可 以 看 出 ， 所 有 参数 通过 了 检验 (a = 0.1). 此 时 的 回归 模型 为 
要 exp( 一 1.6419 — 0.7070Xs。 + 2.7844X;) 
~ 1+exp(—1.6419 — 0.7070X, 十 2.7844X5) 
再 作 预 测 分 析 
> pre<-predict(glm.new, data.frame(X2=2,X3=0)) 
> p<-exp(pre)/(itexp(pre)); P 
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[1] 0.04496518 
> pre<-predict(glm.new, data.frame(X2=2,X3=1)) 
> p<-exp(pre)/(1+exp(pre)); p 
[1] 0.4325522 
因此 巩固 治疗 比 没有 巩固 治疗 提高 了 9.619 售 . 
从 上 述 例 子 可 以 看 出 , 对 于 广义 线性 模型 GLM, 同样 可 以 作 变 量 筛选 ， 模 型 
修正 等 工作 . 当然 ， 我 们 同样 可 作 回 归 诊 断 . 
> Source("Reg_Diag.R"); Reg_Diag(glm.sol) 
诊断 的 结果 (详细 结果 略 ) 还 需要 对 第 5 号 、11 号 、20 号 、43 号 、46 号 样本 
作 进 一 步 的 研究 . 
大 家 还 可 以 用 influence.measures () 作 回 归 诊 断 ， 其 格式 如 下 : 
> influence.measures (glm.so1) 


其 诊断 的 结果 是 : 5 号 、 46 号 样本 可 能 有 问题 . 
6.6.4 ”其 他 分 布 族 


对 于 广义 线性 模型 , 除了 上 面 讲 到 的 logistic 回归 模型 外 , 还 有 其 他 的 模型 ， 
如 Poisson 模型 等 ， 这 里 就 不 详细 介绍 了 ， 只 简单 介绍 及 软件 中 ， glm() 关于 
这 些 模型 的 使 用 方法 . 

1. Poisson 分 布 族 和 拟 Poisson 分 布 族 

Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模型 的 使 用 方法 是 


fm <- glm(formula, family = poisson(link = log), 





data = data.frame) 
fm <- glm(formula, family = quasipoisson(link = log), 


data = data.frame) 


其 直观 概念 是 : 
In(E(Y)) ea bo a DIX1 证 DopXy. 
也 就 是 ， 


El(Y)= exp (Doi PXit+ .+ PoXy). 


Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模型 唯一 的 差别 就 是 ， Poisson 分 
布 族 模型 要 求 响应 变量 Y 是 整数 ， 而 拟 Poisson 分 布 族 模型 则 没有 这 一 要 求 . 
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看 一 个 简单 的 例子 ， 
> x <- rnorm(100) 
> y <- rpois(100, exp(1+x)) 


> glm(y “x, family=poisson) 


Call: glm(formula = y ~ x, family = poisson) 


Coefficients: 
(Intercept) x 
0.997 1.010 


Degrees of Freedom: 99 Total (i.e. Null); 98 Residual 
Null Deviance: 535.7 
Residual Deviance: 106.2 AIC: 366.2 
第 一 句 是 生成 100 个 标准 正 态 分 布 的 随机 数 , 并 赋值 给 变量 x; 第 二 句 是 生成 100 
个 Poisson 的 随机 数 ， 其 中 参数 和 = exp(1 十 7); 第 四 句 是 作 广 义 线性 回归 模型 ， 
其 分 布 族 是 Poisson, 连接 函数 为 Link=log, 因为 它 是 缺 省 值 ， 并 不 需要 写 在 公 
式 电 : 

关于 Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模 型 的 连接 函数 还 有 identity， 


sqdrt. 


2. Gamma 分 布 族 
Poisson 分 布 族 模 型 的 使 用 方法 是 


fm <- glm(formula, family = gamma(link = inverse), 


data = data.frame) 


其 直观 概念 是 : 
1 
ee 
也 就 是 ， 
B(Y) = 


Bo+ BXi+t + BX 
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例如 ， 考 虑 拟 合 非 线性 回归 


01%1 


一 0 





将 它 写 成 男 一 种 形式 


Pirit Para 
其 中 2 = zj/2 XY2 二 一 1/z1, D1 二 1/ 和 G2 二 902/01. 假设 我 们 已 有 适当 的 数 
据 结构 ， 我 们 可 以 用 如 下 的 方法 作 非 线性 回归 
nlfit<-glm(y ~ x1 + x2 - 1, 


family = quasi(link=Gamma, data = data.frame) 


3. quasi 分 布 族 
quasi 分 布 族 模型 的 使 用 方法 是 


fm <- glm(formula, 
family = quasi(link = link.fun, variance=var.val), 
data = data.frame) 
其 中 link.fun 表示 连接 函数 , 有 如 下 函数 : logit, probit, cloglog, identity, 
inverse, log, 1/mu“2, sqrt, 而 var.val 表示 方差 值 ， 有 constant, mu, mu“2， 
mu“3 等 ， 
下 面 是 quasi 分 布 族 模 型 的 简单 例子 ， 有 些 方法 的 计算 结果 与 前 面 介绍 分 布 
族 的 计算 结果 是 相同 的 . 例如 ， 
nlfit <- glm(y ~ xl + x2 - 1,， 
family = quasi(link=inverse, variance=constant), 
data = data.frame) 
与 Gamma 分 布 族 中 介绍 的 例子 是 相同 的 . 
x <- rnorm(100) 
y <- rpois(100, exp(1+x)) 
glm(y “x, family=quasi(var="mu", link="log")) 
与 Poisson 分 布 族 中 介绍 的 例子 是 相同 的 . 当然 ， quasi 分 布 族 模 型 还 有 其 他 的 
方式 


glm(y ”X，family=dquasi(var='"mu`2"，1ink="1log")) 
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y <- rbinom(100, 1, plogis(x)) 
glm(y “x, family=quasi(var="mu(1-mu)", link="logit"), 
start=c(0,1)) 
除 上 述 分 布 族 外 ， 还 有 quasibinomial 分 布 族 、inverse. gaussian 族 等 . 
这 些 分 布 族 需 要 大 家 在 使 用 中 加 深 对 它们 的 了 解 ， 这 里 就 不 一 一 介绍 了 . 


6.7 非 线性 回归 模型 
前 面 各 节 讲 到 的 模型 主要 是 线性 模型 ， 它 具有 如 下 的 形式 
Y= P+PZi+ BaZa t+ PeZr te, (6.51) 


其 中 Zi 可 以 表示 基本 变量 XI, Xo, .…, X 的 任意 函数 . 虽然 式 (6.51) 可 以 表 
示 变 量 之 间 很 广泛 的 关系 (如 广义 线性 模型 ), 但 在 许多 实际 情况 下 ， 这 种 形式 的 
模型 是 不 合适 的 . 例如 ， 当 我 们 获得 了 关于 响应 和 自 变量 之 间 的 有 用 信息 ， 而 这 
种 信息 提供 了 真实 模型 的 形式 或 提供 了 模型 必须 满足 某 种 方程 时 ， 套 用 式 (6.51) 
就 不 合适 了 . 一 般 地 ， 当 实际 情况 要 求 用 非 线性 模型 时 ， 就 应 该 尽 可 能 地 拟 合 这 
样 的 模型 ， 而 不 拟 合 可 能 脱离 实际 的 线性 模型 . 











下 面 列举 两 个 非 线性 模型 的 例子 : 
Y = exp(0 + 0 +e), (6.52) 
2 bi 一 02t 一 01t 
Ye 二 (e et) +e. (6.53) 


模型 (6.52) 和 (6.53) 都 是 以 非 线性 的 形式 包含 参数 0 和 902, 在 这 种 意义 
下 ,它们 都 是 非 线 性 模型 ,但 它们 有 本 质 上 的 区 别 . 一 个 可 以 化 成 线性 模型 ， 如 
对 于 模型 (6.52) 两 边 取 对 数 ， 得 到 


InY = 0+0t +e, (6.54) 


它 具 有 模型 (6.51) 的 形式 ， 即 参 于 参数 是 线性 的 . 类 似 于 模型 模 (6.52) 那样 ， 可 
以 通过 适当 的 变换 转达 化 为 线性 模型 的 非 线性 模型 称 为 内 在 线性 的 . 然而 , 要 想 
将 模型 (6.53) 转化 成 关于 参数 是 线性 形式 是 不 可 能 的 . 这 样 的 模型 称 为 内 在 非 
线性 的 .虽然 很 多 时 候 可 以 变换 这 种 模型 使 它 容易 拟 合 ， 但 无 论 如 何 变换 ， 它 仍 
然 是 非 线性 的 . 
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对 内 在 线性 模型 ， 本 节 主 要 介绍 多 项 式 回归 模型 ， 而 对 于 其 他 的 内 在 线性 模 
型 就 不 作 介绍 了 . 本 闻 的 重点 还 是 放 在 内 在 非 线性 模型 上 ,尽管 有 些 例 子 可 能 还 
是 内 在 线性 的 ， 但 我 们 还 是 用 这 些 例子 说 明 如 何 求解 内 在 非 线性 的 模型 . 








6.7.1 多项式 回归 模型 


1. 多 项 式 回归 


假定 响应 变量 是 自 变量 的 天 次 多 项 式 ， 即 














Y= Pot+ Bixit Bax? t+ Bert + Ei t= 1,2,..,n, (6.55) 
其 中 si ~ N(0,o2). 令 
Zil 二 Vi, 人 Et 2 
则 多 项 式 回 归 模 型 (6.55) 就 可 化 成 元 线性 回归 
i= Pot+Pizat Bozi2t + bezirt ei, t= 1,2,..,n, (6.56) 


其 中 8; ~ N(0,0o7). 

对 于 回归 模型 (6.56) 可 用 前 面 讲 过 的 线性 回归 模型 进行 计算 . 
例 6.21 某 种 合金 钢 中 的 主要 成 分 是 金属 4 与 B, 经 过 试验 和 分 析 ， 发 现 这 两 种 
金属 成 分 之 和 7 与 膨胀 系数 Y 之 间 有 一 定 的 数量 关系 ， 表 6.15 记录 了 一 组 试验 
数据 ， 试 用 多 项 式 回归 来 分 析 x 与 Y 之 间 的 关系 . 


表 6.15: 金属 之 和 与 膨胀 系数 的 关系 数据 
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解 : 完 画 出 数据 的 散 点 图 ， 如 图 6.13 所 示 . 从 图 可 见 ， y 开始 时 随 着 x 的 
增加 而 降低 ， 而 当 7 超过 一 定 值 后 ，Y 又 随 x 的 增加 而 上 升 ， 因 而 可 以 假定 y 
与 7 之 间 是 二 次 多 项 式 回 归 模 型 ， 并 假设 各 次 试验 误差 是 独立 同 分 布 的 ， 并 服 
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图 6.13: 金属 之 和 与 膨胀 系数 的 散 点 图 与 拟 合 曲线 


从 正 态 分 布 N(0,o”). 





Yi = bo | Or | Pox? HH ei, 1=1,2,...,n. 


用 R 软件 求解 多 项 式 回归 (程序 名 :exam0621.B) 


> alloy<-dqata.frame( 


x=c(37.0，37.5，38.0，38.5，39.0，39.5，40.0， 
40.5，41.0，41.5，42.0，42.5，43.0) ， 


y=c(3.40，3.00，3.00，3.27，2.10， 


1.83，1.53， 


1.70，1.80，1.90，2.35，2.54，2.90) 


) 
> lm.sol<-lm(y“1+x+I(x°2) ,data=alloy) 


> summary (lm.so1) 
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Call: 
lm(formula =y ~ 1+x+ I(x’2), data = alloy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.33322 -0.14222 -0.07922 0.05275 0.84577 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 257.06961 47.00295 5.469 0.000273 *** 


xX -12.62032 2.35377 -5.362 0.000318 +*** 
I(x°2) 0.15600 0.02942 5.303 0.000346 +*** 
Signif. codes: 0 ’***’ O.001 ’**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.329 on 10 degrees of freedom 
Multiple R-Squared: 0.7843, Adjusted R-squared: 0.7412 
F-statistic: 18.18 on 2 and 10 DF, p-value: 0.0004668 


因此 ， 得 到 y 关于 z 的 二 次 回归 方程 


D = 257.06961 — 12.62032z 十 0.15600z2. 


并 且 方 程 通过 T 检验 和 下 检验. 其 拟 合 曲线 见 图 6.13 所 示 . 相应 的 绘图 命令 如 
下 : 

> xfit<-seq(37,43,1en=200) 

> yfit<-predict(lm.sol, data.frame (x=xfit)) 

> plot(alloy$x,alloy$y) 

> lines(xfit, yfit) 


2. 正 交 多 项 式 回归 


从 前 面 的 讨论 可 知 ， 多 项 式 回 归 本 质 上 并 不 存在 困难 , 但 它 存在 的 缺点 是 
当 多 项 式 的 次 数 有 较 大 时 ， 一 …， 2* 接近 线性 相关 ， 从 计算 角度 讲 ， 这 样 
会 给 正则 方程 的 求解 带 来 困难 ， 产 生 较 大 的 计算 误差 . 从 统计 和 角度 讲 ， 由 2, 7”， 
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…, 2* 构成 的 设计 矩阵 X 的 各 列 接近 相关 ， 甜 阵 (XXX) 的 值 会 变 得 很 大 ， 
使 得 系数 6 的 估计 值 的 方差 会 变 得 很 大 . 因此 ， 为 克服 这 些 缺 点 ,应 采用 正 交 多 
项 式 回 归 . 

多 项 式 回归 模型 (6.55), 考虑 正 交 多 项 式 模型 


类 三 DopliCi) + Pap2a(Ti) tt Bpr(Ti) t+ ei 二 2， (6.57) 
其 中 pli(z), p2(7X),… ,pxr(Z) 是 正 交 的 ， 即 满足 
Dd j= 1,2,...,k, 
se (6.58) 


>》 p(xi) Pazi) 0 2 
i=1 


关于 正 交 多 项 式 的 计算 公式 这 里 就 不 推导 了 ， 这 里 只 给 出 R 软件 的 计算 正 
交 多 项 函数 poly( 的 使 用 方法 ， 其 使 用 格式 为 
poly(x, ... 1, coefs = NULL) 
其 中 x 是 数值 向 量 ，degree 是 正 交 多 项 式 的 阶 数 , 并 且 要 求 degree<length(x). 
该 函数 的 返回 值 是 一 害 阵 ， 窍 阵 的 各 列 是 满足 式 (6.58) 的 正 交 问 量 . 


，degree = 


对 于 例 6.21 的 数据 作 二 次 正 交 式 


> poly(alloy$x, degree 


[1,] 
[2,] 
[3,] 
[4,] 
[5,] 
[6,] 
[7,] 
[8,] 
[9,] 
[10,] 
[11,] 
[12,] 
[13,] 


1 


.447496e-01 
.706247e-01 
.964997e-01 
.223748e-01 
.482499e-01 
.412493e-02 
.645904e-17 
.412493e-02 
.482499e-01 
.223748e-01 
.964997e-01 
.706247e-01 
.447496e-01 


=:2) 
2 


.49168917 
.24584459 
.04469902 
.11174754 
.22349508 
.29054360 
.31289311 
.29054360 
.22349508 
.11174754 
.04469902 
.24584459 
.49168917 
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其 中 第 一 列 是 p1, 第 二 列 是 p2, 且 满 足 式 (6.58). 进一步 ， 它 们 还 是 单位 向 量 . 
例 6.22 用 正 交 多 项 式 回归 计算 例 6.21 中 的 数据 . 
解 ， 
> lm.pol<-lm(y“1it+poly(x,2) ,data=alloy) 
> summary (lm.pol) 
Call: 
lm(formula =y ~ 1 + poly(x, 2), data = alloy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.33322 -0.14222 -0.07922 0.05275 0.84577 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 2.40923 0.09126 26.400 1.40e-10 *** 
poly(x, 2)1 -0.94435 0.32904 -2.870 0.016669 +* 
poly(x, 2)2 1.74505 0.32904 5.303 0.000346 *** 


Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.329 on 10 degrees of freedom 
Multiple R-Squared: 0.7843, Adjusted R-squared: 0.7412 
F-statistic: 18.18 on 2 and 10 DF, p-value: 0.0004668 


因此 ， 得 到 y 关于 7z 的 二 次 回归 方程 : 
9 = 2.40923 — 0.94435op1 十 1.74505p2. 
相应 的 预测 计算 函数 为 
> xfit<-seq(37,43,1en=200) 
> yfit<-predict(lm.pol, data.frame (x=xfit)) 


6.7.2 (内 在 ) 非 线 性 回归 模型 
1. 非 线 性 最 小 二 乘 与 极 大 似 然 模型 
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设 非 线性 回归 模型 具有 如 下 形式 
Y = f(Xi1, Xo,::, Xp,01,02,.**, xr) e, (6.59) 


其 中 = ~ N(0,0o2). 
设 (Lay Tia Tipi Yi); 1 二 1,2,…,n 是 (XXX 了) 的 n 次 独立 观 
测 值 ， 则 多 元 线性 模型 (6.59) 可 表示 为 
Yi 一 f (xi, Ti2, “ ,Vip) 01, 0,, 3 0x) 十 87 1 三 1, 2 3 (6.60) 


其 中 se N(0,0”), 且 独 立 同 分 布 . 
为 方便 起 见 ， 将 式 (6.60) 简写 成 


yi = f(X®,0) + ei (6.61) 


其 中 XY = (Zi iD .2 0 = (01， 0 Or)’. 
为 求 参数 0 的 估计 值 ， 求 解 最 小 二 乘 问题 


nN 


min Q(0) = (wf(XO,0)) (6.62) 
其 解 9 作为 参数 9 的 估计 值 . 
可 以 证 明 ， 如果。 ~ N(0,c27), 则 9 的 最 小 二 乘 估计 也 是 9 的 极 大 似 然 估 
计 ， 这 是 由 于 该 问题 的 似 然 函 数 可 写成 


L(0,0°) = jp (—Q(0)/20°) . 


因而 ， 如 果 o 已 知 ， 关 于 0 极 大 似 然 估计 等 价 于 求解 问题 (6.62). 
2. 非 线性 模型 的 参数 估计 一 nls() 函数 的 使 用 


关于 参数 9 的 佑 计 值 9 的 计算 ， 实质 上 涉及 无 约束 问题 的 求解 问题 ， 此 类 
问题 这 里 就 不 作 介绍 了 ， 其 原因 有 二 . 其 一 ,求解 问题 (6.62) 属于 最 优化 方法 ， 
与 统计 问题 相差 较 远 ;其 二 ， R 软件 提供 了 非常 方便 的 求解 优化 问题 的 函数 ， 
使 我 们 可 以 方便 地 得 到 其 估计 值 . 

R 软件 中 的 nls() 函数 可 以 求解 非 线性 最 小 二 乘 问题 (6.62), 其 使 用 格式 为 
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nls(formula, data = parent.frame(), start, 

control = nls.control(), 

algorithm = "default", trace = FALSE, subset, 

weights, na.action, model = FALSE) 
其 中 formula 是 包括 变量 和 人 参数 的 非 线性 拟 合 公式 ， data 是 可 选择 的 数据 框 . 
start 是 初始 点 ， 用 列表 (list) 形式 给 出 ， 其 他 参数 见 在 线 帮助 
例 6.23 在 化 学 工业 的 可 靠 性 研究 中 ， 对 象 是 某 种 产品 4. 在 制造 时 单位 产品 中 
必须 含有 0.50 的 有 效 氛 气 ， 已 知 产品 中 的 氛 气 随 着 时 间 增 加 而 减少 .在 产品 到 
达 用 户 之 前 的 最 初 8 周 内 ， 氮 气 含量 衰减 到 0.49. 但 由 于 随后 出 现 了 许多 无 法 
控制 的 因素 (如 库房 环境 、 处 理 设备 等 ), 因而 在 后 8 周 理论 的 计算 对 有 效 氮 气 的 
进一步 预报 是 不 可 靠 的 . 为 了 有 利于 管理 需要 决定 (1) 库存 产品 何 时 应 该 报废 ? 
[2) 何 时 应 该 更 换 存 货 ? 在 一 段 时 间 中 观测 若干 金 产 品 得 到 的 数据 如 表 6.16 所 
示 . 假定 非 线性 模型 


Y=a+t+(0.49—a)exp(-P(X —8))+e (6.63) 


能 解释 当 和 二 8 时 数据 中 出 现 的 变 差 . 试用 非 线 性 最 小 二 来 方法 分 析 . 
解 : 输入 数据 ， 用 nls() 求解 (程序 名 :”exam0623.R) 
> cl<-data.frame( 
X=c (rep(2*4:21, c(2, 4, 4, 3, 3, 2,3, 3，3， 3, 2, 
3 2 1 23 2 Ly YY), 


Y=c(0.49, 0.49, 0.48, 0.47, 0.48, 0.47, 0.46, 0.46, 
0.45, 0.43, 0.45, 0.43, 0.43, 0.44,0.43,，0.43， 
0.46, 0.45, 0.42, 0.42, 0.43, 0.41, 0.41, 0.40, 
0.42, 0.40, 0.40, 0.41, 0.40, 0.41, 0.41, 0.40, 
0.40, 0.40, 0.38, 0.41, 0.40, 0.40,0.41,0.38, 
0.40，0.40，0.39，0.39) 


) 
> nls.sSol<-nls(Y~a+(0.49-a)#kexp(-b#k(X-8) ) ，data=cl， 
start = list( a= 0.1, b = 0.01 )) 
> nls.sum<-summary(nls.so0l1); nls.sum 


Formula: Y ~ a+ (0.49 - a) * exp(-b * (X - 8)) 





序 生产 后 的 时 间 


Parameters : 


表 6.16: 单位 产品 中 有 效 氧气 的 百分数 
有 效 气 气 生产 后 的 时 间 
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Estimate Std. Error t value Pr(>|t|) 
0.005045 77.333 < 2e-16 *** 


a 0.390140 
b 0.101633 


0.013360 


7.607 1.99e-09 +*** 


22 
22 
24 
24 
24 
26 
26 
26 
28 
28 
30 
30 
30 
32 
32 
34 
36 
36 
38 
38 
40 
42 


有 效 毛 气 
0.41 
0.40 
0.42 
0.40 
0.40 
0.41 
0.40 
0.41 
0.41 
0.40 
0.40 
0.40 
0.38 
0.41 
0.40 
0.40 
0.41 
0.38 
0.40 
0.40 
0.39 
0.39 
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Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 2. ”0.1 ” ”1 工 


Residual standard error: 0.01091 on 42 degrees of freedom 


Correlation of Parameter Estimates: 
a 
b 0.8879 
因此 ， 模 型 为 


入 


Y = 0.39 + (0.49 — 0.39) exp(—0.10(X — 8)). 


下 面 画 出 数据 的 散 点 图 和 相应 的 拟 合 曲线 ， R 软件 命令 如 下 ， 其 图 形 如 图 
6.14 所 示 . 





0.46 
| 


cl$Y 


0.42 
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0.40 
| 
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cl$X 


图 6.14: 氯气 数据 的 拟 合 曲线 与 观测 点 





> xfit<-seq(8,44,1en=200) 
> yfit<-predict(nls.sol, data.frame (X=xfit)) 
> plot(cl$X, cl$Y); lines(xfit,yfit) 
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下 面 讨论 对 于 非 线 性 回归 模型 其 他 参数 估计 的 计算 . 
非 线 性 回归 参数 的 推断 要 求 对 误差 项 方差 o? 作出 估计 ， 这 个 估计 值 与 线性 
回归 是 一 样 的 


0 : 


ll 
记 


(yi 一 %)” (5 f(X®, 站) (6) 
$2 = =! = A (6.64) 
nk nk nk 
其 中 0 是 参数 9 估计 值 .对 非 线性 回归 来 说 ， 5? 不 是 o? 的 无 偏 估计 量 ， 但 是 
当 样 本 量 很 大 时 ， 它 的 偏差 很 小 . 
在 了 软件 中 ， 不 必用 式 (6.64) 计算 o 的 估计 值 6, 因为 R 已 经 提供 了 它 的 
值 (summary ($sigma), 例如 ， 对 于 例 6.23， 
> nls.sum$sigma 
[1] 0.01091273 
给 出 了 6 = 0.01091273. 
当 模型 的 误差 项 满足 s; ~ N(0,07), 而 样本 量 n 也 充分 大 时 ， 则 0 的 样本 分 
布 近似 正 态 ， 且 


WsE 


S, 
ll 








E(0) 0. (6.65) 


这 样 ， 当 样本 量 充分 大 时 ， 非 线性 回归 的 最 小 二 乘 估计 量 0 是 近似 正 态 分 布 的 ， 
而 且 是 无 偏 的 ， 回归 系数 近似 协 方差 矩阵 的 估计 值 是 


Var(0) = 62(DTD)-1， (6.66) 


其 中 D 是 根据 最 后 最 小 二 乘 估计 值 9 计算 得 到 的 Jacobi 矩阵 . 与 线性 回归 的 估 
计 协 方差 矩阵 具有 完全 相同 的 形式 ， D 充当 了 X 矩阵 的 角色 . 
例如 ， 对 于 例 6.23， 


f(X,a,B)=a+(0.49— a)exp(-—P(X 一 8))， 





求 偏 导数 得 到 
2 = 1—exp(-—P(X 一 8))， (6.67) 
芒 = —(0.49— a)(X — 8)exp(-B(X — 8)). (6.68) 





F 面 是 计算 回归 系数 近似 协 方差 矩阵 的 过 程 . 
( 按照 公式 (6.67)-(6.68), 编写 计算 偏 导 数 函 数 
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> fn<-function(a, b, X){ 
fl <- 1-exp(-b*(X-8)) 
f2 <- -(0.49-a)*(X-8)*exp(-b*(X-8)) 
cbind(f1,f2) 
让 
函数 的 返回 值 是 扎 阵 . 
(2) 代入 参数 和 变量 数据 X, 计算 偏 导数 在 X 处 的 值 
> D<-fn(nls.sum$parameters[1,1], 
nls.sum$parameters[2,1], cli$X) 
得 到 的 数据 是 由 偏 导数 构成 的 矩阵 . 
(3) 按照 式 (6.66) 计算 出 Var(9) 
> theta.var<-nls.sum$sigma*2*solve(t (D)%*%D) 
(4) 得 到 相应 的 计算 结果 
> theta.var 
f1 f2 
fl 2.545130e-05 5.984318e-05 
f2 5.984318e-05 1.784969e-04 


有 了 回归 系数 的 协 方差 矩阵 ， 就 可 以 计算 参数 a, 9 估计 值 4, 六 的 标准 差 
sd(C) = sqrt(theta.var[1,1]) = 0.005044928, 
sd(b) = sqrt(theta.var[2,2]) = 0.01336027 


事实 上 , 我 们 不 必 计 算 参数 的 标准 差 ， 在 计算 非 线 性 回归 时 ， 此 参数 已 计算 
出 来 ， 它 们 放 在 nls.sum$parameters[,2] 中 ， 
> nls.sum$parameters[,2] 
a b 
0.005044928 0.013360272 


当 非 线性 回归 模型 (6.61) 的 误差 项 是 独立 正 态 分 布 时 , 如 果 样 本 量 充分 大 ， 

则 成 立 下 述 近似 结果 ; 
Gd i 
sq00,) t(n—k), 7=1,2,...,k. (6.69) 
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其 中 sd(0;) 表示 0; 的 标准 差 . 因此 ， 对 任意 单个 的 9;, 近似 1 一 a 置信 区 间 与 
通常 是 一 样 
(0; — toa(n — k)sd(0;), 0; + toa(n — k)sd(0;)]. (6.70) 


下 面 给 出 计算 参数 区 间 估 计 的 程序 ， 程 序 名 : ”paramet .int.R. 


paramet .int<-function(fm, alpha=0.05)+ 
paramet <- fm$parameters[,1] 
df <- nls.sum$df [2] 
left <- paramet-nls.sum$parameters[,2] 
right <- paramet+nls.sum$parameters[,2] 
rowname <- dimnames(nls.sum$parameters) [[1]] 
colname <- c('"Estimate", "Left", "Right") 
matrix(c(paramet,left, right), ncol=3, 


dimnames = list(rowname, colname )) 


} 


其 中 fm 是 由 nls() 函数 得 到 的 计算 结果 . alpha 是 显 车 性 水 平 . 函数 的 返回 
值 是 一 矩阵 ， 其 值 有 参数 的 佑 计 值 和 相应 的 区 间 佑 计 . 
用 函数 paramet .int() 计算 例 6.23 中 参数 的 区 间 佑 计 . 
> Source("paramet.int.R"); paramet.int(nls.sol) 
Estimate Left Right 
a 0.3901401 0.38509514 0.3951850 
b 0.1016328 0.08827257 0.1149931 


3. 非 线 性 模型 的 参数 估计 一 nlm() 函数 的 使 用 


在 及 软件 中 ,也 可 用 函数 nlm() 求解 非 线 性 最 小 二 乘 问 题 (6.62). nlm() 使 
用 格式 
nlm(f, p, hessian = FALSE， 
typsize=rep(1, length(p)), fscale=1, 
print.level = 0, ndigit=12, gradtol = 1e-6, 
stepmax = max(1000 * sqrt(sum((p/typsize) “2)), 1000), 
steptol = 1e-6, iterlim = 100， 
check.analyticals = TRUE, ...) 
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其 中 £ 是 求 极 小 的 目标 函数 ， 如 果 f£ 的 属性 包含 梯度 (?gradient’) 或 梯度 
("gradient”) 和 Hesse 矩阵 (hessian?)， 则 在 算法 求 极 小 时 会 直接 用 到 梯度 
或 Hesse 和 矩阵， 否则 用 数值 的 方法 求 导数 . p 是 参数 ( 即 模型 (6.61) 中 的 0) 的 
初 值 . hessian 是 逻辑 变量 ， 当 hessian=TRUE 时 ， 其 结果 给 出 相应 的 Hesse 知 
阵 ， 否 则 (FALSE 缺 省 值 ), 将 不 计算 Hesse 和 矩阵， 其余 参 数 的 意义 见 在 线 帮助 
这 个 函数 采用 Newton 型 算法 求 极 小 ， 函 数 的 返回 值 是 一 个 列表 ， 包 含 极 小 
值 ， 极 小 点 的 估计 值 ， 极 小 点 处 的 梯度 、 Hesse 和 矩阵， 以 及 求解 所 需 的 迭代 次 数 
等 . 
在 第 四 章 的 4.1.2 节 介绍 过 nlm() 函数 的 使 用 方法 , 下 面 再 进一步 介绍 nlm() 
的 使 用 方法 ， 在 程序 中 给 出 目标 函数 的 梯度 . 
例 6.24 用 函数 nlm() 作 例 6.23 的 非 线性 最 小 二 乘 估计 . 
解 : 写 出 非 线性 最 小 二 乘 问题 的 目标 函数 ,其 中 函数 包含 梯度 (gradient ) 
属性 .函数 名 :fn.R 
fn<-function(p, X, Y){ 
f <- Y-p[1]-(0.49-p[1])*exp(-p[2]*(X-8)) 
res<-sum(f“2) 
f1<- -1itexp(-p[2]*(X-8)) 
f2<- (0.49-p[1])*exp(-p[2]*(X-8))*(X-8) 
J<-cbind(f1 ,£2) 
attr(res, "gradient") <- 2*t(J)%*f 
res 


} 
在 函数 中 ，f 是 残 差 向 量 ， res 是 残 差 平 方 和 和 . f1 是 f 对 pi 求 导数 得 到 
的 向 量 ， f2 是 f 对 ps 求 导数 得 到 的 向 量 . J 是 Jacobi 矩阵 . 
再 用 nlm() 函数 求解 
> out<-nlm(fn, p=c(0.1, 0.01), X=cl$X, Y=cl$Y, hessian=TRUE); out 
$minimum 
[1] 0.00500168 
$estimate 
[1] 0.3901400 0.1016327 
$gradient 
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[1] 7.954390e-07 -3.261297e-07 
$hessian 
[,1] [,2] 

[1,] 44.20335 -14.799291 
[2,] -14.79929 6.248565 
$code 
[1] 1 
$iterations 
[1] 33 

在 上 述 计 算 结果 中 ， minimum 是 目标 函数 在 最 优点 处 的 最 小 值 ， 也 就 是 残 
差 的 平方 和 ; estimate 是 参数 的 估计 值 ， 即 4, /; gradient 是 目标 函数 在 最 
优点 处 的 梯度 值 ， hessian 是 目标 函数 在 最 优点 处 的 Hesse 窍 阵 ， 它 可 以 作为 
DTD 的 近似 值 ， iterations 是 授 代 次 数 . 

由 上 述 结果 可 以 很 容易 地 计算 52, 和 G, 6 方差 阵 

> n<-length(X); k<-2 











> sigma2<-out$minimum/ (n-k); sigma2 

[1] 0.0001190876 

> theta.var<-sigma2*solve(out$hessian); theta.var 
[,1] [ ,2] 

[1,] 1.301183e-05 3.081760e-05 

[2,] 3.081760e-05 9.204775e-05 


My 


习题 六 
6.1 为 估计 山上 积 雪 融 化 后 对 下 游 灌溉 的 影响 ， 在 山上 建立 一 个 观测 站 ， 测 量 
最 大 积 雪 深度 XX 与 当年 灌溉 面积 也 , 测 得 连续 10 年 的 数据 如 表 6.17 下 所 示 . 
(1) 试 画 相应 的 散 点 图 ， 判 断 了 与 X 是 否 有 线性 关系 ; 
(2) 求 出 Y 关于 X 的 一 元 线性 回归 方程 ; 
(3) 对 方程 作 显著 性 检验 ; 
(4) 现 测 得 今年 的 数据 是 X 二 7 米 ， 给 出 今年 灌溉 面积 的 预测 值 和 相应 的 
区 间 估 计 (Qa = 0.05). 
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表 6.17: 10 年 中 最 大 积 雪 深 度 与 当年 灌溉 面积 的 数据 


证 YA 同 
5.1 7.8 


1 3000 
2 4.5 1947 
3 5.6 2273 
4 8.0 3113 
5 6.4 2493 





6.2 研究 同一 地 区 土壤 所 含 可 给 态 磷 的 情况 ， 得 到 18 组 数据 如 表 6.18 所 示 . 
表 中 Xi 为 土壤 内 所 含 无 机 磷 浓 度 ， XX 为 土壤 内 溶 于 K2CO3 溶液 并 受 溴 化物 
水 解 的 有 机 磷 ， 关 3 为 土壤 内 溶 于 KK2C00O3 溶液 但 不 溶 于 省 化 物 水 解 的 有 机 磷 . 


表 6.18: 某 地 区 土壤 所 含 可 给 态 磷 的 情况 


51 
76 
96 
77 
93 
95 
54 
168 
99 


‘OO Oo ~ 中 GO 上 WO 一 





(1) 求 出 Y 关于 X 的 多 元 线性 回归 方程 ; 

(2) 对 方程 作 显著 性 检验 ; 

(3) 对 变量 作 逐 步 回 归 分 析 ， 
6.3 已 知 如 下 数据 ， 由 表 6.19 所 示 . 

(1) 画 出 数据 的 散 点 图 ， 求 回归 直线 y = [0 十 P17, 同时 将 回归 直线 也 画 在 
散 点 图 上 

(2) 分 析 了 检验 和 下 检 验 是 否 通 过 ， 
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表 6.19: 数据 表 


17.5 
13.4 
4.5 
30.4 
12.4 
13.4 
26.2 
7.4 


OO Oo ~ OW DO 王 
OW WW DD OO 一 


一 
Ce 





(3) 画 出 残 差 (普通 残 差 和 标准 化 残 差 ) 与 预测 值 的 残 差 图 ， 分 析 误 差 是 否 
是 等 方差 的 ， 

(4) 修正 模型 ， 对 响应 变量 Y 作 开 方 ， 再 完成 (1)-(3) 的 工作 . 
6.4 对 牙膏 销售 数据 (数据 表 见 例 6.9) 得 到 的 线性 模型 作 回归 诊断 ， 分 析 哪 些 
样本 点 需要 作 进 一 步 的 研究 ?哪些 样本 点 需要 在 回归 计算 中 删 去 ， 如 果 有 ， 删 去 
再 作 线 性 回归 模型 的 计算 . 
6.5 诊断 水 泥 数 据 (数据 见 例 6.10) 是 否 存 在 多 重 共 线性 , 分 析 例 6.10 中 step() 
函数 去 掉 的 变量 是 否 合理 . 

6.6 为 研究 一 些 因素 (如 用 抗生素 、 有 无 危险 因子 和 事先 是 否 有 计划 ) 对 “市 腹 
产后 是 否 有 感染 ”的 影响 ， 表 6.20 给 出 的 是 某 医 院 剖 腹 产 后 的 数据 , 试用 logistic 
表 6.20: 某 医 院 进 行 剖 腹 产 后 的 数据 
事先 有 计划 临时 决定 
有 感染 无 感染 有 感染 感 ; 





有 危险 因子 
没 有 
有 危险 因子 
没 有 
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回归 模型 对 这 些 数据 数据 进行 研究 ， 分 析 感 染 与 这 些 因素 的 关系 . 
6.7 表 6.21 是 10 名 肺癌 病人 的 生存 资料 ， 其 中 Xi1 表示 生活 行动 能 力 评分 


表 6.21: 40 名 肺癌 病人 的 生存 资料 


一 
于 品 OO OO OOP~ OO OO oO oO oO OO oo oO oO Oooor- 
中 
< 
OO OO OO OW DO DODD 
SS: EE SO MS DO ON CS/ SD SS Sh EE 
FS 


1 
1 
1 
1 
1 
1 
1 
2 
2 
2 
2 
2 
2 
2 
3 
3 
0 
0 
0 
0 





(1 ~ 100); Xo 表示 病人 的 年 龄 ， Xa 表示 由 诊断 到 直入 研究 时 间 (月 ); X4 表示 
肿瘤 类 型 (“0” 是 磷 癌 ，“1” 是 小 型 细胞 癌 ，“2” 是 腺 癌 ，“3” 是 大 型 细胞 癌 放 
Xs 表示 两 种 化 疗 方法 (“1” 是 常规 ，“0” 是 试验 新 法 ); 》 表示 病人 的 生存 时 间 
(“0” 是 生存 时 间 短 ， 即 生存 时 间 小 于 200 天; “I” 表示 生存 时 间 长 ， 即 生存 时 
间 大 于 或 等 于 200 天 ). 
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(1) 建立 P(Y =1) 对 Xi ~ Xs 的 logistic 回归 模型 ，X ~ Xs 对 P(Y = 了) 
的 综合 影响 是 否 显著 ?哪些 变量 是 主要 的 影响 因素 , 显著 水 平 如 何 ? 计算 各 病人 
生存 时 间 大 于 等 200 天 的 概率 估计 值 . 

(2) 用 逐步 回归 法 选取 自 变量 ， 结 果 如 何 ? 在 所 选 模型 下 ， 计 算 病 人 生存 时 
间 大 于 等 于 200 天 的 概率 估计 值 ， 并 将 计算 结果 与 (1) 中 模型 作 比较 ， 差异 如 
何 ? 哪 一 个 模型 更 合理 . 
6.8 一 位 饮食 公司 的 分 析 人 员 想 调查 自助 餐馆 中 的 自动 咖啡 售 贷 机 数量 与 咖啡 
销售 量 之 间 的 关系 ， 她 选择 了 14 家 餐馆 来 进行 实验 . 这 14 家 餐馆 在 营业 额 、 
顾 容 类 型 和 地 理 位 置 方面 都 是 相近 的 ， 放 在 试验 餐馆 的 自动 售 货 机 数量 从 0( 这 
里 咖啡 由 服务 员 详 来 ) 到 6 不 等 ， 并 且 有 是 随机 分 配 到 每 个 餐馆 的 ， 表 6.22 所 示 
的 是 关于 试验 结果 的 数据 . 


表 6.22: 自动 咖啡 售 货 机 数量 与 咖啡 销售 量 数据 





用 信贷 机 数量 。 史 呈 销售 
1 3 697.5 
2 4 755.3 
3 4 758.9 
4 5 787.6 
5 5 792.1 
6 6 841.4 
的 6 831.8 
(1) 作 线性 回归 模型 ; 


(2) 作 多 项 式 回归 模型 ; 

(3) 画 出 数据 的 散 点 图 和 拟 合 曲 线 . 
6.9 一 位 医院 管理 人 员 想 建立 一 个 回归 模型 ， 对 重伤 病人 出 院 后 的 长 期 恢复 情 
况 进行 预测 ， 自 变量 是 病人 住院 的 天 数 (X) 应 变量 是 病人 出 院 后 长 期 恢复 的 预 
后 指数 (YY) ， 指 数 的 数值 越 大 表示 预后 结局 越 好 .为 此 ， 研 究 了 15 个 病人 的 数 
据 ， 这 些 数 据 列 在 表 6.23 中 . 根据 经 验 表 明 ， 病 人 住院 的 天 数 (X) 和 预后 指数 
(Y) 服从 非 线性 模型 

Yi bo exp(01Xi) 十 55 ? 一 本 2725519. 
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(1) 用 内 在 线性 模型 方法 计算 其 各 种 参 的 估计 值 ; 
(2) 用 非 线性 方法 (nls() 函数 和 nlm() 函数 ) 计算 其 各 种 参 的 估计 值 . 


表 6.23: 关于 重伤 病人 的 数据 





病 号 | 住院 天 数 (X) 预后 指数 (Y) 


Oo DD 0 上 中 已 一 


住院 天 数 (X) 预后 4 


34 
38 
45 
52 
53 
60 
65 
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在 实际 工作 中 ， 影 响 一 件 事 的 因素 是 很 多 的 ， 人们 总 是 希望 通过 各 种 试验 来 
观察 各 种 因素 对 试验 结果 的 影响 ， 例 如: 不 同 的 生产 厂家 ,不 同 的 原材料 ， 不 同 
的 操作 规程 ， 及 不 同 的 技术 指标 等 对 产品 的 质量 、 性 能 都 会 有 影响 ， 然 而 不 同 因 
素 的 影响 大 小 不 等 ， 方差 分 析 是 研究 一 种 或 多 种 因素 的 变化 对 试验 结果 的 观测 
值 是 否 有 显著 影响 . 从 而 找 出 较 优 的 试验 条 件 或 生产 条 件 的 一 种 常用 数理 统计 方 
法 : 

人 们 在 试验 中 所 考察 到 的 数量 指标 如 产量 、 性 能 等 称 为 观测 值 .影响 观测 值 
的 条 件 称 为 因素 . 因素 的 不 同 状 态 称 为 水 平 ， 一 个 因素 可 以 采用 多 个 水 平 . 在 一 
项 试验 中 ， 可 以 得 出 一 系列 不 同 的 观测 值 . 引起 观测 值 不 同 的 原因 是 多 方面 的 ， 
有 的 是 处 理 方式 不 同 或 条 件 不 同 引 起 的 , 称 作 因素 效应 (或 处 理 效应 、 条 件 变异 ). 
有 的 是 试验 过 程 中 偶然 性 因素 的 干扰 或 观测 误差 所 导致 的 ， 称 作 试验 误差 . 方差 
分 析 的 主要 工作 是 将 测量 数据 的 总 变异 按照 变异 原因 的 不 同 分 解 为 因素 效应 和 
试验 误差 并 对 其 作出 数量 分 析 ， 比 较 各 种 原因 在 总 变异 中 所 占 的 重要 程度 ， 作 
为 统计 推断 的 依据 ， 由 此 确定 进一步 的 工作 方向 . 























7.1 单 因素 方差 分 析 


下 面 从 一 个 实例 出 发 说 明 单 因素 方差 分 析 的 基本 思想 . 
例 7.1 利用 四 种 不 同 配方 的 材料 A1 、 A，。 、 A3 、 A4 生产 出 来 的 元 件 ， 测 得 
其 使 用 寿命 如 表 7.1 所 示 . 问 : 四 种 不 同 配方 下 元 件 的 使 用 寿命 有 无 显著 的 差 


表 7.1: 元 件 寿 命 数据 





材料 使 用 寿命 
41 | 1600 1610 1650 1680 1700 1700 1780 
As | 1500 1640 1400 1700 1750 
As | 1640 1550 1600 1620 1640 1600 1740 1800 
44 | 1510 1520 1530 1570 1640 1600 
异 ? 
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在 此 例 中 材料 的 配方 是 影响 元 件 的 使 用 寿命 的 因素 , 四 种 不 同 的 配方 表明 因 
素 处 于 四 种 状态 ， 称 为 四 种 水 平 ， 这 样 的 试验 称 为 单 因 素 四 水 平 试验 . 由 表 中 数 
据 可 知 ， 不 仅 不 同 配方 的 材料 生产 出 的 元 件 使 用 寿命 不同， 而 且 同 一 配方 下 元 件 
的 使 用 寿命 也 不 一 样 . 分 析 数 据 波动 的 原因 主要 来 自 两 方面 . 

其 一 ， 在 同样 的 配方 下 做 若干 次 寿命 试验 ,试验 条 件 大 体 相 同 ， 因 此 ， 数 据 
的 波动 是 由 于 其 它 随机 因素 的 干扰 所 引起 的 . 设想 在 同一 配方 下 元 件 的 使 用 寿命 
应 该 有 一 个 理论 上 的 均值 ， 而 实测 寿命 数据 与 均值 的 偏离 即 为 随机 误差 ， 此 误差 
服从 正 态 分 布 . 

其 二 ,在 不 同 的 配方 下 ,使 用 寿命 有 不 同 的 均值 ， 它 导致 不 同 组 的 元 件 间 寿 
命 数据 的 不 同 . 

对 于 一 般 情况 ， 设 试验 只 有 一 个 因素 4 在 变化 ， 其 它 因素 都 不 变 ， 4 有 7 
个 水 平 4 4A2, …, 4 在 水 平 4 下 进行 mi 次 独立 观测 , 得 到 试验 指标 列表 中 ， 
如 表 7.2 所 示 . 











表 7.2: 单 因素 方差 分 析 数 据 
水 中 观测 值 





其 中 zz 表示 在 因素 4 的 第 i 个 水 平 下 的 第 7 次 试验 的 试验 结果 . 


7.1.1 ”数学 模型 


将 水 平 4 下 的 试验 结果 zi zi2, …, zimn; 看 作 来 自 第 i 个 正 态 总 体 X; ~ 
Na o2) 的 样本 观测 值 ， 其 中 /ic 均 未 知 ， 且 每 个 总 体 X; 相互 独立 ， 考 虑 线 
性 统计 模型 


Tij = Mi Eij, 1= 1,2,...,7, j= 1,2,..., na, 
| 5 5 (7.1) 


Eij ~ N(0, 0 且 相 互 独立 ， 
其 中 i 是 第 i 个 总 体 的 均值 ， si 是 相应 的 试验 误差 . 
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比较 因素 4 的 7 个 水 平 的 差异 归结 为 比较 这 r 个 总 体 的 均值 . 即 检验 假设 
Ho: Wi1= == Mr, Hi : W142,…, 1M 不 全 相等 . (7.2) 
记 
1 色 学 
p= mh n= mi 人 一 让 一 几 
下 ji 
这 里 / 表示 总 和 的 均值 ， ao; 为 水 平 A; 对 指标 的 效应 ， 不 难 验 证 niQi = 0. 
证 1 
模型 (7.1) 又 可 以 等 价 写成 


Tij = H+ Qi Ei = 7 = 1,2,...,n;, 
Eij ~ N(0, oo") 且 相 互 独立 ， (7.3) 


Sk 一 0. 
称 模 型 (7.3) 为 单 因素 方差 分 析 的 数学 模型 ， 它 是 一 种 线性 模型 . 
7.1.2 方差 分 析 
因此 假设 (7.2) 等 价 于 





Ho: Ql Q2 Se Qr 0， Hi: Q1, Q2,* ,OQr 不 全 为 零 ， (7.4) 





如 果 Ho 被 拒绝 ， 则 说 明 因素 4 的 各 水 平 的 效应 之 间 有 显著 的 差异 ; 否则 ,差异 
不 明显 . 

为 了 导出 Ho 的 检验 统计 量 . 方差 分 析 法 建立 在 平方 和 分 解 和 目 由 度 分 解 的 
基础 上 ， 考 虑 统计 量 





ww Ni 六 Ni 


zx = 1 
Sr= ,>_(xi — 2), 1=— ,2 


i=1 j=1 i=1 j=1 





称 97 为 总 离 差 平方 和 (或 称 为 总 变 差 ), 它 是 所 有 数据 zi 与 总 平均 值 Z 差 的 平方 
和 ， 描 绘 了 所 有 观测 数据 的 离散 程度 . 经 计算 可 以 证 明 如 下 的 平方 和 分 解 公 式 : 


ST = Sp Soa, (7.5) 
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其 中 


rT Ni 1 Ni 
一 \92 = 
Sp = > > (Tij 一死 ) ， Ti = 一 > Tij) 
Ti j=1 


i=1 j=1 


54 = > Sa, — 7X)* = > ni(Ti. — £). 
i=1 j=1 i=1 
这 里 Sg 表示 了 随机 误差 的 影响 .这 是 因为 对 于 固定 的 i 来 讲 ， 观 测 值 za，ziz， 
“ins 是 来 目 同 一 个 正 态 总 体 Na o2) 的 样本 . 因此 ， 它 们 之 间 的 差异 是 由 
随机 误差 所 致 ， 而 2 (Ti 一 Zi)? 是 这 ni 个 数据 的 变动 平方 和 ， 正 是 它们 差异 大 
到 

小 的 度量 . 将 7 组 这 样 的 变动 平方 和 相 加 ， 就 得 到 了 Sg, 通常 称 Ss 为 误差 平方 
和 或 组 内 平方 和 . 

94 表示 在 4; 水 平 下 的 样本 均值 与 总 平均 值 之 间 的 差异 之 和 ， 它 反映 了 7 
个 总 体 均值 之 间 的 差异 ， 因 为 3 是 第 i 个 总 体 的 样本 均值 ， 是 ji 的 估计， 因此 
7 个 总 体 均值 At 42,.…, 1 之 间 的 差异 越 大 ， 这 些 样本 均值 21，72，…, 7 之 间 
的 差异 也 就 越 大 ， 平方 和 Zl 一 元 )” 正 是 这 种 差异 大 小 的 度量 . 这 里 mw 反 
映 了 第 i 个 总 体 样本 大 小 在 平方 和 54 中 的 作用 . 称 34 为 因素 4 的 效应 平方 和 
或 组 间 平 方 和 . 

公式 (7.5) 表明 ， 总 平方 和 57 可 按 其 来 源 分 解 成 两 部 分 ， 一 部 分 是 误差 平 
方 和 Sg, 是 由 随机 误差 引起 的 . 另 一 部 分 是 因素 4 的 平方 和 54, 是 由 因素 4 的 
各 水 平 的 差异 引起 的 . 

由 模型 假设 (7.2) 经 过 统计 分 析 可 以 得 到 E(Sg) = (n 一 7)o?, 即 Sp/(n 一 7) 
是 2 的 一 个 无 偏 估计 ， 且 











E 
pr X2(m 一 让， 


如 果 原 假设 Ho 成 立 ， 则 有 (S54) = 和 一 Do 即 此 时 S54/(7 一 1) 也 是 的 无 
偏 佑 计 ， 且 


2 


并 且 S54 与 Sp 相互 独立 ， 因 此 当 Ho 成 并 时 ， 


a SaA/(7r— 1) 
9P/( 一 7 





F ~ FPF(ro1,n—r7). (7.6) 
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于 是 了 (也 称 尸 比 ) 可 以 作为 Ho 的 检验 统计 量 . 对 给 定 的 显著 性 水 平 a, 用 
Fa 一 1,n 一 7) 表示 下 分 布 的 上 a 分 位 点 . 阁下 > Fa(7 一 1,n 一 7), 则 拒绝 原 
假设 , 认为 因素 A 的 + 个 水 平 有 显著 差异 . 也 可 以 通过 计算 P- 值 的 方法 来 决定 
是 接受 还 是 拒绝 原 假设 Ho. p 值 为 p == P{F(7 一 1,n 一 7) > 了 f}, 它 表示 的 是 服 
从 自由 度 为 (7 一 1,n 一 7) 的 下 分布 的 随机 变量 取 值 大 于 的 概率 .显然 ，p 值 
小 于 a 等 价 于 > Few 一 1,n 一 7), 表示 在 显著 性 水 平 a 下 的 小 概率 事件 发 生 
了 ， 这 意味 着 应 该 拒绝 原 假设 Ho. 当 p 值 大 于 a 时 ， 则 无 法 拒绝 原 假设 ， 所 以 
应 接受 原 假设 Ho. 
通常 将 计算 结果 列 成 表 7.3 的 形式 ， 称 为 方差 分 析 表 . 


表 7.3: 单 因素 方差 分 析 表 
方 关 来 源 和 p 信 
因素 A 
误 差 
总 和 











7.1.3 ”方差 分 析 表 的 计算 
R 软件 中 的 aov() 函数 提供 了 方差 分 析 表 的 计算 . aov() 函数 的 使 用 方法 


是 
aov(formula, data = NULL, projections = FALSE, qr = TRUE, 
contrasts = NULL, ...) 
其 中 formula 是 方差 分 析 的 公式 . data 是 数据 杠 . 其 他 见 在 线 帮助 
另外 ， 可 用 summary() 列 出 方差 分 析 表 的 详细 信息 . 
例 7.2 ( 续 例 7.1) 用 RR 软件 计算 例 1. 
解 : 用 数据 框 的 格式 输入 数据 , 调用 aov() 函数 计算 方差 分 析 , 用 summary() 
提取 方差 分 析 的 信息 (程序 名 exam0702.R) 
> lamp<-data.frame( 
X=c(1600，1610，1650，1680，1700，1700，1780，1500，1640， 
1400，1700，1750，1640，1550，1600，1620，1640，1600，， 
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1740，1800，1510，1520，1530，1570，1640，1600) ， 
A=factor(c(rep(1,7),rep(2,5), rep(3,8), rep(4,6))) 
) 

> lamp.aov<-aov(X ~ A, data=lamp) 
> summary (lamp .aov) 

Df Sum Sq Mean Sq F value Pr(>F) 
A 3 49212 16404 2.1659 0.1208 
Residuals 22 166622 7574 


上 述 数据 与 方差 分 析 表 7.3 中 的 内 容 相 对 应 ， 其 中 Df 表示 自由 度 ， Sum Sq 表 
示 平 方 和 ， Mean Sq 表示 均 方 ，F value 表示 下 值 ， 即 FF 比 . PrCF) 表示 了 
值 ，A 就 是 因素 A, Residuals 是 残 差 ， 即 误差 . 


从 上 述 计算 结果 可 以 看 出 , 如 果 直 接 用 summary (lamp.aov) 的 话 , 它 没有 列 
出 方差 分 析 表 7.3 的 最 后 一 行 (总 和 行 ), 这 里 编 个 小 程序 (程序 名 anova. tab.R)， 
作 一 点 改进 , 其 计算 方法 是 将 summary 函数 得 到 表 中 的 的 第 一 行 与 第 二 行 求 和 ， 
得 到 总 和 行 的 值 . 
anova.tab<-function(fm){ 
tab<-summary (fm) 
k<-length(tab[[1]])-2 
temp<-c(sum(tab[[1]][,1]), sum(tab[[1]][,2]), rep(NA,k)) 
tab[[1i]]["Total",]<-temp 
tab 
有 


这 个 小 程序 的 另 一 个 目的 是 学 会 如 何 利用 R 软件 的 计算 结果 来 得 到 我 们 需 
要 的 结果 .用 上 述 函 数 ， 就 可 以 得 到 完整 的 方差 分 析 表 . 


> source("anova.tab.R"); anova.tab(lamp.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 3 49212 16404 2.1659 0.1208 
Residuals 22 166622 7574 
Total 25 215835 


并 将 结果 填 在 方差 分 析 表 中 ， 由 表 7.4 所 示 . 
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表 7.4: 元 件 寿 命 试验 的 方差 分 析 表 


方差 来 源 p 什 
因素 A 49212 16404 | 2.1658 | 0.1208 
误差 166622 7573 

总 和 215835 


从 p 值 (0.1208 > 0.05) 可 以 看 出 ， 没 有 充分 理由 说 明 Ho 不 正确 ， 也 就 是 
说 ,接受 Ho. 说 明 四 种 材料 生产 出 的 元 件 的 平均 寿命 无 显著 的 差异 . 

通过 plot () 函数 绘图 来 描述 各 因素 的 差异 ,其 命令 如 下 , 所 绘图 形 由 图 7.1 
所 示 . 
> plot (lamp$X”lamp$A) 
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lamp$A 
图 7.1: 元 件 寿命 试验 的 箱 线 图 


从 图 形 上 也 可 看 出 ， 四 种 材料 生产 出 的 元 件 的 平均 寿命 是 无 显著 差异 的 . 
例 7.3 小 白鼠 在 接种 了 3 种 不 同 菌 型 的 伤寒 杆菌 后 的 存活 天 数 如 表 7.5 所 示 . 
判断 小 白鼠 被 注射 三 种 菌 型 后 的 平均 存活 天 数 有 无 显著 差异 ? 
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表 7.5: 白鼠 试验 数据 








解 , 设 小 白鼠 被 注射 的 伤寒 杆菌 为 因素 ， 三 种 不 同 的 菌 型 为 三 个 水 平 ， 接 种 
后 的 存活 天 数 视 作 来 自 三 个 正 态 分 布 总 体 N(jwi,o”)(i = 1,2,3) 的 样本 观测 值 . 
问题 归结 为 检验 : 


Ho: Ha 三 Ha = M3; Hi : HA Na Ha 不 全 相等 . 


R 软件 计算 过 程 与 计算 结果 (exam0703.R) 

> mouse<-data.frame( 

X=c( 2, 4, 3, 2, 4, 7, 7, 2, 2, 5, 4, 5, 6, 8, 5, 10, 7, 
12, 12, 6, 6, 7, 11, 6, 6, 7, 9, 5, 5, 10, 6, 3, 10), 
A=factor(c(rep(1,11),rep(2,10), rep(3,12))) 
) 
> mouse.aov<-aov(X ~ A, data=mouse) 
> source('"anova.tab.R'"); anova.tab(mouse.aov) 


Df Sum Sq Mean Sq F value Pr 人 (>F) 


A 2 94.256 47.128 8.4837 0.001202 ** 

Residuals 30 166.653 5.555 

Total 32 260.909 

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’” 0.05 ”.”0.1 ”?’”1 





2 值 远 小 于 0.01 应 拒绝 原 假设 ， 即 认为 小 白鼠 在 接种 三 种 不 同 菌 型 的 伤寒 
杆菌 后 的 存活 天 数 有 显著 的 差异 . 


7.1.4 ”均值 的 多 重 比较 


如 果 F 检验 的 结论 是 拒绝 Ho, 则 说 明 因素 4 的 7 个 水 平 效应 有 显著 的 差 
异 ,也 就 是 说 7 个 均值 之 间 有 显著 差异 . 但 是 这 并 不 意味 着 所 有 均值 间 都 存在 差 
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异 ， 这 时 我 们 还 需要 对 每 一 对 和 jj 作 一 对 一 的 比较 ， 即 多 重 比 较 . 

多 重 比较 的 方法 很 多 ， 这 里 介绍 几 种 常用 的 方法 . 

1. 多 重 t 检验 方法 

这 种 方法 本 质 上 就 是 针对 每 组 数据 进行 t 检验 ， 只 不 过 估计 方 差 时 利用 的 是 
全 体 数据 ， 因 而 自由 度 变 大 . 具体 地 说 ,要 比较 第 i 组 与 第 7 组 平均 数 ， 即 检验 

Ho : Hi = Hj, 1 天 小 1,7 = 1,2,.……,7. 

方法 采用 两 正 态 总 体 均值 的 t 检验 ， 取 检验 统计 旱 


Ti — Ti. 





re i (7.7) 
当 万 0 成 立时 ， i; ~ tn 一 7). 所 以 当 
| > 起 (一 站 (7.8) 
时 ， 说 明 jw 与 1w 差异 显著 .定义 相应 的 P- 值 
pi = P{ tn —7) > lisl }, (7.9) 


即 服从 自由 度 为 n 一 7 的 t 分 布 的 随机 变量 大 于 |tij| 的 概率 . 上 述 方法 等 价 于 当 
pij < 时， 与 J 差异 显著 . 

多 重 t 检验 方法 的 优点 是 使 用 方便 . 但 在 均值 的 多 重 检 验 中 ,如果 因素 的 水 
平 较 多 , 而 检验 又 是 同时 进行 的 ， 多 次 重复 使 用 t 检验 会 增 大 犯 第 一 类 错误 的 概 
率 ， 所 得 到 的 “有 显著 差异 ”的 结论 不 一 定 可 靠 . 

2. P- 值 的 修正 

为 了 克服 多 重 t 检验 方法 的 缺点 , 统计 学 家 们 提出 了 许多 更 有 效 的 方法 来 调 
整 P- 值 ， 由 于 这 些 方法 涉及 较 深 的 统计 知识 ， 这 里 只 作 简 单 的 说 明 . 具体 调整 
方法 的 名 称 和 参数 见 表 7.6. 

R 软件 p- 值 调 整 函 数 是 p.adjust(), 其 使 用 方法 如 下 : 

p.adjust(p, method = p.adjust.methods, n = length(p)) 





p.adjust .methods 
# cl("holm", "hochberg", "hommel", "bonferroni", 


"BH" "BY" "fdr" none'" 
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表 7.6: P- 值 的 调整 方法 





调整 方法 R 软件 中 的 参数 
Bonferroni "bonferroni" 
Holm (1979) "holm" 
Hochberg (1988) "hochberg" 
Hommel (1988) "hommel" 
Benjamini & Hochberg (1995) "BH" 

Benjamini & Yekutieli (2001) "BY" 


其 中 p 是 由 P- 值 构成 的 向 量 . method 是 修正 方法 ， 缺 省 值 是 Holm 方法 ， 即 
参数 "holm". 关于 其 他 方法 的 进一步 解释 ,请 见 p.adjust() 函数 的 在 线 帮助 . 

3. 均值 的 多 重 比较 的 计算 

R 软件 中 的 pairwise.t.test() 函数 可 以 得 到 多 重 比较 的 bp 值 ， 其 使 用 方 
法 如 下 : 

pairwise.t.test(x, g, p.adjust.method = p.adjust .methods, 
pool.sd = TRUE, ...) 

其 中 x 是 响应 向 量 ，g 是 因子 向 量 . p.adjust .method 是 p 值 的 调整 方法 ,其 方法 
由 函数 p.adjust() 给 出 , 参数 值 由 表 7.6 所 示 . 如 果 p.adjust .method='"none" 
表示 p- 值 是 由 式 (7.7) 和 式 (7.9) 计算 出 的 ， 不 作 任何 调整 ， 缺 省 值 按 Holm 方 
法 ("holm") 作 调 整 . 
例 7.4 ( 续 例 7.3) 由 于 在 例 7.3 中 太 检 验 的 结论 是 拒绝 HHo, 请 进一步 检验 














Ho: Hi 二 Hy 2 7 到 1,2,3. 


解 : 首先 计算 各 个 因子 间 的 均值 ， 再 用 多 重 检验 方法 作 检验 ， 也 就 是 说 ， 
p- 值 不 作 任 何 调 整 ， (程序 名 ， exam0704.B) 
#### 戏 数据 在 各 水 平 下 的 均值 
> attach (mouse) 
> mu<-c(mean(X[A==1]), mean(X[A==2]), mean(X[A==3])); mu 
[1] 3.818182 7.700000 7.083333 
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#### 作 多 重 七 检验 


> pairwise.t.test(X, A, p.adjust.method = "none'") 





i 


Pairwise comparisons using t tests with pooled SD 

data: X and A 

1 2 
2 0.00072 - 
3 0.00238 0.54576 
P value adjustment method: none 
将 计算 结果 列 入 表 中 ， 如 表 7.7 所 示 . 

表 7.7: 均值 多 重 检验 pb 值 表 
Dij 

1.00000 0.00072 0.00238 
0.00072 1.00000 0.54576 


0.00238 0.54576 1.00000 





观察 两 个 作 调整 后 p- 值 的 情况 ， 
> pairwise.t.test(X, A, p.adjust.method = "holm") 
Pairwise comparisons using t tests with pooled SD 
data: X and A 
1 2 
2 0.0021 - 
3 0.0048 0.5458 
P value adjustment method: holm 
> pairwise.t.test(X, A, p.adjust.method = "bonferroni") 
Pairwise comparisons using t tests with pooled SD 
data: X and A 
1 2 
2 0.0021 - 
3 0.0071 1.0000 


P value adjustment method: bonferroni 
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从 这 两 组 数据 可 以 看 出 ， 调 整 后 的 p- 值 会 增 大 ， 在 一 定 程度 上 会 克服 多 重 
t 检验 方法 的 缺点 . 

从 上 述 计算 结果 (无 论 是 调整 后 的 p- 值 还 未 调整 的 p- 值 ) 可 见 ， Hi 与 La， 
Hi 与 ji 均 有 显著 差异 ， 而 Ha 与 1 没有 显著 差异 . 即 小 白鼠 所 接种 的 三 种 不 同 
菌 型 的 伤寒 杆菌 中 第 一 种 与 后 两 种 使 得 小 昌 鼠 的 平均 存活 天 数 有 显著 差异 . 而 后 
两 种 差异 不 显著 . 

从 箱 线 图 也 能 看 出 这 种 情况 ， 见 图 7.2 所 示 . 


> plot (mouse$X“mouse$A) 




















mouse$X 























mouse$A 


图 7.2: 小 白鼠 平均 存活 天 数 的 箱 线 图 


7.1.5 ”方差 的 齐 次 性 检验 
要 进行 方差 分 析 ， 应 当 具 备 以 下 三 个 条 件 : 
(1) 可 加 性 . 假设 模型 是 线性 可 加 模型 ， 每 个 处 理 效 应 与 随机 误差 是 可 以 炙 
加 的 ， 即 
Tij 二 从 十 Qi 十 Eij: 


(2) 独立 正 态 性 . 试验 误差 应 当 服 从 正 态 分 布 、 而 且 相 互 独立 . 
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(3) 方差 齐 性 不同 处 理 间 的 方差 是 一 致 的 ， 即 满足 假设 


Ee 
Ho .01 0 


Or. 


2 
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(7.10) 


对 于 常用 的 试验 来 说 , 大 都 能 满足 以 上 三 个 条 件 . 对 于 有 些 不 满足 条 件 的 试 


验 ， 可 以 先进 行 数据 变换 再 进行 方差 分 析 . 





面 对 试 验 结果 ， 如 有 果 对 误差 的 正 态 性 和 方差 齐 性 没有 把 握 ， 则 应 进行 检验 . 


1. 误差 的 正 态 性 检验 


误差 的 正 态 性 检验 本 质 上 就 是 数据 的 正 态 性 检验 ， 可 以 用 第 三 章 介 绍 的 W 


检验 (shapiro.test() 函数 ) 方法 对 数据 作 正 态 性 检验 . 


例 7.5 对 例 7.1 的 数据 作 正 态 性 检验 . 
解 : 调用 shapiro.test() 也 数 . 

> attach (lamp) 
> shapiro.test(X[A==1]) 


Shapiro-Wilk normality test 


data: X[A == 1] 


W = 0.9423, p-value = 0.6599 


> shapiro.test(X[A==2]) 


Shapiro-Wilk normality test 


data: X[A == 2] 


W = 0.9384, p-value = 0.6548 


> shapiro.test(X[A==3]) 


Shapiro-Wilk normality test 


data: X[A == 3] 


W = 0.8886, p-value = 0.2271 


> shapiro.test(X[A==4]) 


Shapiro-Wilk normality test 


data: X[A == 4] 


W = 0.9177, p-value = 0.4888 
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计算 结果 表明 ， 例 7.1 中 数据 在 四 种 水 平 下 的 均 是 正 态 的 . 


2. 方差 齐 性 检验 
方差 齐 性 检验 就 是 检验 数据 在 不 同 水 平 下 方差 是 否 相同 . 方差 齐 性 检验 最 党 
用 的 方法 是 Bartlett 检验 ， 当 各 处 理 组 的 数据 较 多 时 ， 令 





Ni 








2 rm 2 Tr . 2 
Sa Se » (7ij — Ti) ， 
四 = yh — 1)S? 
We ~ 
CS Pa yee (有 一 站 一 
3 全 ， 
Nn 三 1 十 12 十 :… 十 7Tr. 


在 假设 (7.10) 成 立时 ， 统 计量 


K?= 2 I —7)lnS*— SS 一 了 ) na (7.11) 


C 
2 一 | 





近似 服从 自由 度 为 "一 工 的 X 分 布 . 当 
RK?Y>xw(r-1) 或 P{ 人 >K2 <a 


时 ,拒绝 Ho, 即 认为 至 少 有 两 个 处 理 组 数据 的 方差 不 等 ; 否则， 认为 数据 满足 方 
差 齐 性 的 要 求 ， 
R 软件 中 ， bartlett.test() 函数 提供 是 Bartlett 检验 ， 其 使 用 格式 为 
bartlett.test(x, g, ...) 
bartlett.test(formula, data, subset, na.action, ...) 
其 中 x 是 由 数据 构成 的 向 量 或 列表 . g 是 由 因子 构成 的 向 量 ， 当 x 是 列表 时 ， 
此 项 无 效 . formula 是 方差 分 析 的 公式 ， data 是 数据 框 . 其余 见 在 线 帮助 . 
例 7.6 对 例 7.1 的 数据 作 Bartlett 方差 齐 性 检验 . 
解 : 
> bartlett.test(X“A, data=lamp) 
Bartlett test of homogeneity of variances 
data: X by A 
Bartlett’s K-squared = 5.8056, df = 3, p-value = 0.1215 
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P- 值 (0.1215)> 0.05, 接受 原 假设 Ho, 认为 各 处 理 组 的 数据 是 等 方差 的 . 
坟 外 … 疝 学 
bartlett.test(lamp$X, lamp$A) 


具有 相同 的 效果 . 


7.1.6 ” Kruskal- Wallis 秩 和 检验 


方差 分 析 过 程 需要 者 干 条 件 ， 了 检验 才能 奏效 ， 可 借 有 时 候 所 采集 的 数据 
常常 不 能 满足 这 些 条 件 . 事实 上 ， 即 使 有 一 个 条 件 不 满足 都 会 令 我 们 陷入 和 塌 众 之 
中 . 象 两 样本 比较 时 一 样 ， 不 妨 尝试 将 数据 转化 为 秩 统 计量 ， 因 为 秩 统 计量 的 分 
布 与 总 体 分 布 无 关 ， 可 以 摆脱 总 体 分 布 的 束缚 . 在 比较 两 个 以 上 的 总 体 时 ， 广泛 
使 用 的 Kruskal-Wallis 秩 和 检验 , 它 是 对 两 个 以 上 样本 进行 比较 的 非 参数 检验 方 
法 . 实质 上 ， 它 是 两 样本 的 Wilcoxon 方法 在 多 于 两 个 样本 时 的 推广 . 

给 定 n 个 个 体 用 以 s(s > 3) 种 处 理 方法 的 效果 比较 ， 将 这 n 个 个 体 随机 地 
分 为 s 组 ， 全 第 组 有 ni 个 ， 并 指定 这 mi 个 个 体 接受 第 i 种 处 理 方法 的 试验 


Ce Dn 当 试 验 结束 后 ， 将 这 n 个 个 体 放 在 一 起 根据 
处 理 效果 的 优 劣 排序 得 到 各 自 的 秩 . 记 第 i 组 的 ni 个 个 体 的 秩 为 





Ra, Riz,:, Pian) %= 1,2,...,s. 


并 设 观测 值 中 无 结 点 ， 即 Ri < Ra <… < Rins(i 二 1,2,…,5). 检验 的 目的 是 
根据 这 些 秩 统 计量 检验 假设 
Ho : 各 处 理 方法 的 效果 无 显著 差异 

能 否 接受 . 

为 了 构造 合适 的 检验 统计 量 ， 只 有 原 假设 是 不 够 的 ， 还 应 对 相应 的 备 择 假设 
有 足够 的 了 解 。 Kruskal-Wallis 秩 和 检验 考虑 的 是 最 常见 的 一 种 备 择 假设 ， 即 各 
方法 的 处 理 效 果 知 有 差异 , 其 差异 主要 反映 在 各 组 个 体 的 处 理 效 果 的 度量 值 的 分 
离 上 . 换 名 话说， 者 各 方法 的 处 理 效 果 有 显著 差异 ， 则 接受 各 方法 试验 的 个 体 的 
秩 之 间 有 一 个 排序 ， 其 中 某 些 方法 中 个 体 的 秩 趋 于 取 较 小 值 ， 男 一 些 方法 中 个 体 
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的 秩 趋 于 取 较 大 的 值 ， 下 面 针 对 此 类 备 择 假设 构造 检验 统计 量 . 令 

Li 十 Ra 十 十 用 
Ti ? 

Le 1 

71) Rs- we 

i=1 j=1 

其 中 Ri 是 第 i 组 个 体 的 秩 的 平均 值 (i = 1,2,.…, s), RR. 是 总 的 平均 值 . 者 各 方 

法 处 理 效 果 之 间 有 显著 差异 ， 按 上 述 备 择 假设 ， 则 Ri(i = 1,2,.…,s) 相互 差异 

小 , 且 均 分 散在 及 . 附近 . 因此 , 可 以 用 (Ri 一 RR.)? 的 加 权 和 来 度量 各 Boi 与 R. 


的 接近 程度 . 令 
12 ~ n+l 


i=1 


元 尝 i = 1,2,...,s, (7.12) 


R. 











称 K 为 Kruskal-Wallis 统计 量 , 若 Ho 不 真 ， 则 K 有 偏 大 的 趋势 ， 因 此 ， 其 拒 
绝 域 形 式 为 
玉 > c， 
或 者 计算 出 相应 的 已- 值 ， 当 P 一 值 小 于 相应 的 显著 性 水 平 ， 则 拒绝 原 假设 . 
上 述 检 验方 法 称 为 Kruskal-Wallis 秩 和 检验 . 
R 软件 提供 了 Kruskal-Wallis 秩 和 检验 ， 其 函数 为 kruskal .test(), 使 用 方 
法 如 下 
kruskal .test(x, g, ...) 
kruskal.test(formula, data, subset, na.action, ...) 
其 中 x 是 由 数据 构成 的 向 量 或 列表 .， g 是 由 因子 构成 的 向 量 ， 当 x 是 列表 时 ， 
此 项 无 效 ， formula 是 方差 分 析 的 公式 ， data 是 数据 框 ， 其 余 见 在 线 帮 助 . 
例 7.7 为 了 比较 属 同一 类 的 四 种 不 同 食谱 的 营养 效果 ， 将 25 只 老鼠 随机 地 分 为 
4 组 ， 每 组 分 别 是 8 只 ，4 只 ，7 只 和 6 只 ,各 采用 食谱 甲 、CL、 两 、 丁 喂养 . 假 
设 其 他 条 件 均 保持 相同 ，12 周 后 测 得 体重 增加 量 如 表 7.8 所 示 . 对 于 a = 0.05， 
检验 各 食谱 的 营养 效果 是 否 有 显著 差异 . 
解 : 根据 题 意 ， 原 假设 为 
Ho : 各 的 营 食 谱 养 效果 无 显著 差异 ， Hi : 各 的 营 食 谱 养 歼 果 有 显著 差异 . 
输入 数据 ， 调 用 kruskal .test() 函数 作 检 验 (程序 名 : ”exam0707.R). 








表 7.8: 12 周 后 25 只 


食 详 
四 164 
二 185 
内 187 
乎 202 





> food<-data.frame( 
X=c(164，190， 
185，197 ， 
187 ，… 212， 
202，204， 


190 
197 
212 
204 


203，， 
201， 
215 ， 
207 ， 
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203 
201 
215 
207 


鼠 的 体重 增加 量 (单位 ; 克 ) 


体重 增加 值 


205 
231 
220 
227 


206 


248 
230 


214 228 
265 281 
276 


205，206，214，228，257， 


231， 


220，248，265，281， 
227，230，276) ， 


g=factor(rep(1:4，c(8,4,7,6))) 


) 


> kruskal.test(x“g, data=food) 


Kruskal-Wallis rank sum test 


data: x by g 


Kruskal-Wallis chi-squared = 4.213, df = 


257 


3, p-value = 0.2394 
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PP 一 值 = 0.2394 > 0.05, 无 法 拒绝 原 假设 ， 认 为 各 的 营 食 谱 养 效果 无 显著 差异 . 


男 两 种 写法 ， 


kruskal .test(food$x, food$g) 


A<-c(164，190，203，205，206 ， 


B<-c(185, 197, 201, 231) 


C<-c(187，212，215，220，248， 
D<-c(202，204，207，227，230， 


kruskal.test(list(A,B,C,D)) 


可 以 达到 同样 的 效果 . 


对 上 述 数 据 作 正 态 检验 和 方差 齐 性 检验 


> attach (foo0d) 


214，228，257) 


265，281) 
276) 
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> shapiro.test(x[g==1]) 
Shapiro-Wilk normality test 

data: x[g == 1] 

W = 0.9619, p-value = 0.828 


> shapiro.test(x[g==2]) 
Shapiro-Wilk normality test 

data: x[g == 2] 

W = 0.9084, p-value = 0.4741 


> shapiro.test(x[g==3]) 
Shapiro-Wilk normality test 

data: x[g == 3] 

W = 0.9523, p-value = 0.7506 


> shapiro.test(x[g==4]) 
Shapiro-Wilk normality test 

data: x[g == 4] 

W = 0.8182, p-value = 0.08516 


> bartlett.test(x“g, data=food) 
Bartlett test of homogeneity of variances 
data: x by g 
Bartlett’s K-squared = 0.9328, df = 3, p-value = 0.8175 


全 部 通过 检验 ， 因 此 ， 上 述 数 据 也 可 以 作 方 差分 析 . 


> source("anova.tab.R") 
> anova.tab(aov(x“g, data=food)) 

Df Sum Sq Mean Sq F value Pr 人 (>F) 
£ 3 3308.1 1102.7 1.378 0.2769 
Residuals 21 16803.9 800.2 
Total 24 20112.0 
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其 结论 是 相同 的 ， 即 认为 各 的 营 食 谱 养 效果 无 显著 差异 . 
7.1.7 ” Friedman 秩 和 检验 

在 配伍 组 设计 中 ,多 个 样本 的 比较 ， 如 果 它 们 的 总 体 不 能 满足 正 态 性 和 方差 
齐 性 的 要 求 ， 可 采用 Friedman 秩 和 检验 . 

Friedman 秩 和 检验 的 基本 思想 与 前 面 介绍 的 方法 类 似 ， 但 是 配伍 组 设计 的 
随机 化 是 在 配伍 组 内 进行 的 , 而 配伍 组 间 没 有 进行 随机 化 . 因此 在 进行 Friedman 
秩 和 检验 时 ， 是 分 别 在 每 个 配伍 组 内 将 数据 从 小 到 大 编 秩 , 如果 相同 的 数据 取 平 
均 秩 次 . 设 有 N 个 配伍 组 ，s 个 处 理 水 平 , 则 不 同 配 伍 组 的 秩 和 相等 , 均 为 < 守 9， 
且 平 均 秩 次 与 总 平均 秩 次 相等 ， 都 等 于 < 号 ,这 正好 对 应 于 随机 区 组 设计 的 方 
差分 析 ， 由 于 配伍 组 间 没 有 进行 随机 化 ， 因 此 无 须 对 配伍 组 因素 进行 检验 . 

Friedman 检验 统计 量 8 的 计算 为 


S 


12N 1 和 
Q = 5 (BB+))) ， (7.15) 


其 中 


1 
R= (Pat Rt + Rin), i= 1,2,...,5, 


Ri; 表示 第 i 个 处 理 组 第 j 个 数据 的 秩 次 . 
Friedman 秩 和 检验 的 原 假设 为 
Ho : 各 方法 的 处 理 效果 无 显著 差异 . 
其 备 择 假设 主要 考虑 各 方法 的 处 理 效 果 使 各 个 体 的 效果 度量 趋 于 增加 或 减少 . 若 
Ho 不 真 时 ， 则 Q 有 偏 大 的 趋势 ， 因 此 拒绝 域 的 形式 为 
Q >c. 


或 用 相应 的 一 值 进 行 检 验 . 上 述 检验 方法 称 为 Friedman 秩 和 检验 . 
令 了 为 第 i 个 处 理 组 的 秩 和 ， 即 


T=NR= RitRat:..+Rin, i=1,2,...,s, 





则 @ 又 可 以 表示 为 


12 ee 
Q = et 一 3V(s 十 了 (7.16) 


1 一 
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式 (7.16) 更 便于 实际 计算 . 
R 软件 中 ,函数 friedman.test() 提供 了 Friedman 秩 和 检验 ， 其 使 用 方法 
是 
friedman.test(y, ...) 
friedman.test(y, groups, blocks, ...) 
friedman.test(formula, data, subset, na.action, ...) 


其 中 y 是 数据 构成 的 向 量 或 叫 阵 ， groups 是 与 y 有 同样 长 度 的 向 量 ， 其 内 容 表 
示 y 的 分 组 情况 ， blocks 与 y 有 同样 长 度 的 向 量 ， 其 内 容 表 示 y 的 水 平 . 当 y 
是 矩阵 时 ， groups 和 blocks 无 效 ， 其 他 使 用 方法 见 在 线 帮助 . 
例 7.8 24 只 小 鼠 按 不 同 窜 别 分 为 8 个 区 组 ， 再 把 每 个 区 组 中 的 观察 单位 随机 分 
配 到 3 种 不 同 的 饲料 组 ， 喂 养 一 定时 间 后 ， 测 得 小 鼠 肝 中 铁人 含量， 结果 如 表 7.9 
所 示 . 试 分 析 不 同 饲料 的 小 鼠 肝 中 的 铁 含量 是 否 不 同 . 

表 7.9: 不 同 饲 料 组 小 鼠 肝 脏 中 铁 含量 (单位 :g/g) 





窝 列 (配伍 组 ) | 1 2 3 4 5 6 7 8 
饲料 A 1.00 1.01 1.13 1.14 170 2.01 2.23 2.63 
饲料 了 B 0.96 123 1.54 1.96 2.94 3.68 5.59 6.96 
饲料 C 2.07 3.72 4.50 4.90 6.00 6.84 8.23 10.33 


解 : 输入 数据 ， 调 用 friedman.test() 也 数 (程序 名 : exam0708 .BR). 
> Xx<-matrix( 
c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01, 2.23，2.63, 
0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59, 6.96,， 
2.07，3.72，4.50，4.90，6.00，6.84，8.23，10.33) ， 
ncol=3, dimnames=list(1:8, c("A", "B", "C")) 
) 
> friedman.test(X) 
Friedman rank sum test 
data: XX 
Friedman chi-squared = 14.25, df = 2, p-value = 0.0008047 
PP 一 值 = 0.0008047 < 0.05, 拒绝 原 假设 ， 认 为 不 同 饲料 的 小 鼠 肝 中 的 铁 含 量 有 
显著 差异 . 
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另 两 种 写法 ， 

x<-c(1.00，1.01，1.13，1.14，1.70，2.01，2.23，2.63， 
0.96，1.23，1.54，1.96，2.94，3.68，5.59，6.96， 
2.07，3.72，4.50，4.90，6.00，6.84，8.23，10.33) 

g<-g1L(3 ,8) 

b<-g1(8,1,24) 

friedman.test (x,g,b) 


和 
mouse<-data.frame( 
x=c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01, 2.23，,2.63, 
0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59，6.96, 
2.07，3.72，4.50，4.90，6.00，6.84，8.23，10.33) ， 
g=g1(3,8) ， 
b=g1 (8, 1,24) 
) 
friedman.test(x“glb, data=mouse) 
可 以 达到 同样 的 效果 . 


7.2” 双 因素 方差 分 析 


在 大 量 的 实际 问题 中 , 需要 考虑 影响 试验 数据 的 因素 多 于 一 个 的 情形 . 例如 
在 化 学 试验 中 , 几 种 原料 的 用 量 , 反应 时 间 , 温度 的 控制 等 都 可 能 影响 试验 结果 ， 
这 就 构成 多 因素 试验 问题 ， 本 节 讨 论 双 因素 试验 的 方差 分 析 ， 
例 7.9 在 一 个 农业 试验 中 ， 考 虑 四 种 不 同 的 种 子 品 种 A1, A2, A3, A4 和 三 种 不 
同 的 施肥 方法 Bi，Ba，PB3 得 到 产量 数据 如 表 7.10 所 示 (单位 ， hg). 试 分 析 种 
子 与 施肥 对 产量 有 无 显著 影响 ? 

这 是 一 个 双 因 素 试验 ， 因 素 4( 种 子 ) 有 四 个 水 平 ， 因 素 B( 施 肥 ) 有 三 个 水 
平 ， 我 们 通过 下 面 的 双 因素 方差 分 析 法 来 回答 以 上 问题 ， 

设 有 4, 忆 两 个 因素 ， 因 素 4 有 7 个 水 平 41, 4o,…, 4 ; 因素 有 s 个 
水 平 Bi1, Bo, …, B;. 
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表 7.10: 农业 试验 数据 


Bl B» Bs 
41 325 292 316 
42 317 310 318 
43 310 320 318 
44 330 370 365 





7.2.1 不 考虑 交互 作用 


1. 数学 模型 
在 因素 4, B 的 每 一 种 水 平 组 合 (4;, B;) 下 进行 一 次 独立 试验 得 到 观测 值 


表 7.11: 无 重复 试验 的 双 因 素 方 差分 析 数 据 





Bi Bb 已。 
41 尼 11 TL12 V1ls 
A X21 X22 V2s 
4 Trl Tr2 Trs 





假定 Tij ~ Ni oa)， %= 1,2,.°,7, 3 = 1,2,."*s. 且 各 Tij 相互 独立 .不 
考虑 两 因素 间 的 交互 作用 ， 因 此 数据 可 以 分 解 为 


4 订 二 从 | Qi | 局 | Eij) 1 = 1,2,.…,7, 7 = 1,2,:::,s, 





Eij A N(0, oo”), 且 各 Eij 相互 独立 ， (7.17) 
>》 as 3 0， 罗 丽 一 0， 
i=1 j=1 
1 人 S 
其 中 4 = 元 2 > 0 为 总 平均 ， os 为 因素 4 的 第 ; 个 水 平 的 效应 ， 6; 为 因 


i=1 j=1l 


素 B 的 第 7 个 水 平 的 效应 . 
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2. 方差 分 析 


在 线性 模型 (7.17) 下 ， 方 差分 析 的 主要 任务 是 ， 系统 分 析 因 素 A 和 因素 B 
对 试验 指标 影响 的 大 小 ， 因 此 ， 在 给 定 显 著 性 水 平 a 下 ， 提 出 如 下 统计 假设 : 
对 于 因素 4,“ 因 素 A 对 试验 指标 不 显著 ”等 价 于 





Hoi : Ql CQ2 生生 Qr 0. 





对 于 因素 B,“ 因 素 B 对 试验 指标 不 显著 ”等 价 于 





Hos: P=62 = = 6,=0. 





双 因 素 方差 分 析 与 单 因素 方差 分 析 的 统计 原理 基本 相同 , 也 是 基于 平方 和 分 
解 公 式 
ST 一 97 十 904 十 9P， 
其 中 


ST 一 > (Zi — £), = -> Tij) 


这 1 j=1 i=1 j=1 


2 


1 S 
(和 Xi. 二 ij) CD 
j=1 


1 
_\9 
SB = 7 (五 ) 一 元 ，  £.; = >> Xij, j= 1,2,...,s, 
j=1 i=1 


wm 


SE 一 (i -> 人 T.j 十 z)2, 


i=1 j=1 


其 中 S57 为 总 离 差 平方 和 ， SE 为 误差 平方 和 ， S44 是 由 因素 4 的 不 同 水 平 所 引 
起 的 离 差 平方 和 ( 称 为 因素 4 的 平方 和 ). 类 似 地 ， SB 称 为 因素 B 的 平方 和 . 
可 以 证 明 当 Ho 成 立时 ， 


Saf/o” Rs X2(r 1), 
且 与 Sp 相互 独立 ， 而 


局 
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于 是 当 Hoi 成 立时 ， 

Sa/(r = 1) 
Sp/[(7 — 1)(s— 1)] 
类 似 地 ， 当 Hos 成 立时 ， 

Sp/(s = 1) 
Sg/[(7 — 1)(s— 1) 


分 别 以 Fa, fs 作为 Ho1, Hos 的 检验 统计 量 ， 将 计算 结果 列 成 方差 分 析 表 ， 如 表 
7.12 所 示 . 


Fa 一 改正 (7 一 1 一 1(s 一 1 )， 


Fs = ~F(s—-1,(r—1)(s—1)). 


表 7.12: 双 因 素 方差 分 析 表 

方差 来 源 
因素 A 
因素 B Mg 
误差 MBE = 
总 和 


Sp 
(7—1)(s—1) 





3. 方差 分 析 表 的 计算 


仍然 用 aov() 函数 计算 双 因 素 方 差分 析 表 7.12 中 的 各 种 统计 量 . 
例 7.10 ( 续 例 7.9) 对 例 7.9 的 数据 作 双 因素 方差 分 析 ， 试 确定 种 子 与 施肥 对 产 
量 有 无 显著 影响 ? 
解 : 输入 数据 ， 用 aov() 函数 求解 . 与 单 因 素 方差 分 析 相 同 ， summary () 
无 法 给 出 总 和 行 ， 这 里 用 自 编 的 函数 anova.tab() 得 到 方差 分 析 表 (程序 名 : 
exam0710 .BR). 
#### 用 数据 框 的 形式 输入 数据 
> agriculture<-data.frame( 
Y=c(325，292，316，317，310，318， 
310，320，318，330，370，365) ， 
A=g1 (4,3), 
B=g1 (3, 1,12) 
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#### 作 双 因素 方差 分 析 

> agriculture.aov <- aov(Y ~ A+B, data=agriculture) 
#### 调用 自 编 函数 anova.tab(), 显示 计算 结果 

> source("anova.tab.R"); anova.tab(agriculture.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 3 3824.2 1274.7 5.2262 0.04126 +* 

B 2 162.5 81.2 0.3331 0.72915 

Residuals 6 1463.5 243.9 

Total 11 5450.3 

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’” 0.05 ”.”0.1 ” ”1 


根据 p 值 说 明 不 同 品 种 对 产量 有 显著 影响 ， 而 没有 充分 理由 说 明 施肥 方法 
对 产量 有 显著 的 影响 . 

事实 上 在 应 用 模型 (7.17) 时 ， 遵 循 着 一 种 假定 ， 即 因素 4, B 对 指标 的 效应 
是 可 以 全 加 的 . 而且 认为 因素 4 的 各 水 平 效 应 的 比较 ,与 因素 B 在 什么 水 平 无 
关 ， 这 里 并 没有 考虑 因素 A, B 的 各 种 水 平 组 合 (4;, B;) 的 不 同 给 产量 带 来 的 影 
啊 ， 而 这 种 影响 在 许多 实际 工作 中 是 应 该 给 予 足够 的 重视 的 ， 这 种 影响 被 称 为 交 
互 效 应 .这 就 导出 下 面 所 要 讨论 的 问题 . 


7.2.2 ”考虑 交互 作用 





1. 数学 模型 
设 有 两 个 因素 4 和 B, 因素 4 有 7 个 水 平 A1, 42,…, 4,; 因素 B 有 s 个 水 
zijk; 将 观测 数据 列表 ， 如 表 7.13 所 示 . 
假定 
Tijp ~ Na， 一 2 了 一)2) 5 天 一 1)2) .加 


各 Xijx 相互 独立 . 所以， 数据 可 以 分 解 为 
Tijk = H+ it Pj 0i; + Eijk, 
Eijk ~ (0,0 ), 且 各 eijx 相互 独立 ， (7.18) 
ee Ee Re 
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表 7.13: 双 因 素 重复 试验 数据 


V1lslX1s2*** TX1st 


V2s1T2s2 * * * V2st 





VrslLrs2* * “Wrst 


其 中 a; 为 因素 4 的 第 i 个 水 平 的 效应 ，6; 为 因素 B 的 第 7 个 水 平 的 效应 . 


表示 4; 和 Bj 的 交互 效应 ， 因 此 有 


i=1 j=1 


1 3 区 s 
= 元 2 2 Hi >》 ou=0， 人 7 
i=l j=1 ; 














1 一 1 j=1 

2. 方差 分 析 

此 时 判断 因素 A, B 及 交互 效应 的 影响 是 否 显 彰 等 价 于 检验 下 列 假设 
万 01 : al 一 Q2 一:… :一 ar 一， 
Ho : D1 = C2 “… = =0, 





万 03 : 0i; = 0， 人生 -2 J 
在 这 种 情况 下 ， 方 差分 析 法 与 前 两 节 的 方法 类 似 ， 有 下 列 计算 公式 : 


ST = Sp+ SA SOB SOAxB, 


其 中 
# Ss t ~ 5 t 
Dh 
i=1 j=1 k=1 Tab j=1 k=1 
Tr Ss t 
SE = >》 > >》 (cir — Ei) 
i=1 j=1 k=1 
1 t 


Tij. 到 了 az 1 一 1 2 7 了 三 |)2,...，5， 
k=1 
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S t 
54 = st 》 (zi. — 7) Ti 二 二 >》 Tijk, 1 = 1,2,.…,7, 


i=1 j=1 k=1 


7 t 
SB = rt 》 (zs. — £2)’, 交 二 > 》， Tijk, Ff = 1,2,...,s, 


j=1 i=1 k=1 


SAxB 一 > Vi 一 化 让 元 )2， 


这 1 j=1 





其 中 Sz 为 总 离 差 平方 和 ， SE 为 误差 平方 和 ， 54 为 因素 4 的 平方 和 ， 5 为 
因素 B 的 平方 和 ， S54xB 为 交互 效应 平方 和 ， 可 以 证 明 : 当 Hoi 成 立时 ， 


Pa BN ~ Pe hrs) 


当 五 o 成 立时 ， 


net ee 
i 


当 Hos 成 立时 ， 


FaxB = 一 ~ FPF((r—1)(s—1),rs(t—1)). 


分 别 以 Fa, Fp, FaxB 作为 Bot Ho2, Hos 的 检验 统计 量 ， 将 检验 结果 列 成 方差 


表 7.14: 有 交互 效应 的 双 因 素 方 差分 析 表 


方差 来 源 
因素 A MS = 
因素 B M5Sp= 加 
交互 效应 _ SAxB 
AxB (7—1)(s—1) 
误 差 MSp = iE 
总 和 





分 析 表 ， 如 表 7.14 所 示 . 
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例 7.11 研究 树种 与 地 理 位 置 对 松树 生长 的 影响 ， 对 四 个 地 区 的 三 种 同龄 松树 的 
直径 进行 测量 得 到 数据 如 下 表 了 15 所 示 (单位 。 Cm)，A1, Az, As 表示 三 个 不 


表 7.15: 三 种 同龄 松树 的 直径 测量 数据 


Ba 
20 21 18 
27 24 
26 26 28 
29 23 
22 13 12 





22 19 


同 树 种 ， Bi1, Bo, B3, B4 表示 四 个 不 同 地 区 .对 每 一 种 水 平 组 会 ， 进 行 了 5 次 测 
量 ， 对 此 试验 结果 进行 方差 分 析 . 
解 : 用 数据 框 的 形式 输入 数据 ， 调 用 aov() 函数 计算 ， 再 调用 anova.tab() 
函数 显示 (程序 名 : ”exam0711.R). 
> tree<-data.frame( 
Y=c(23, 25, 21, 14, 15, 20, 17, 11,26,，21, 
16, 19, 13, 16, 24, 20, 21, 18, 27，24, 
28, 30, 19, 17, 22, 26, 24, 21, 25,， 26, 
19，18，19，20，25，26，26，28，29，23， 
822 
19，23，22，14，13，22，13，12，22，19) ， 
A=g1 (3,20,60), 
B=g1 (4,5,60) 
) 
> tree.aov <- aov(Y ~ A+B+A:B, data=tree) 
> source('"anova.tab.R'"); anova.tab(tree.aov) 
Df Sum Sq Mean Sq F value Pr(>F) 
A 2 352.53 176.27 8.9589 0.000494 *** 


B 3 87.52 
A:B 6 71.73 
Residuals 48 944.40 
Total 59 1456.18 


Signif. codes: 0 ’?***? 


7.2 双 因 素 方 差分 析 


29.17 1.4827 0.231077 
11.96 0.6077 0.722890 
19.67 


0.001 ?x**’” O0.01 ’*’ 0.05 ). 
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可 见 在 显著 性 水 平 a = 0.05 下 ， 树 种 ( 行 ) 效应 是 高 度 显 著 的 ， 而 位 置 ( 列 ) 


效应 及 交互 效应 并 不 显著 . 


7.2.3 ”方差 齐 性 检验 


与 单 因素 方差 分 析 相 同 , 对 于 双 因 素 方 差分 析 , 数据 也 应 满足 正 态 性 和 方差 


齐 性 的 要 求 . 


例 7.12 检验 例 7.11 中 的 数据 对 于 因素 4 和 因素 是 否 是 正 态 的 ? 是 否 满 足 


方差 齐 性 的 要 求 ? 


解 : 仍然 采用 W 正 态 检验 检验 数据 的 正 态 性 ， 用 Bartlett 检验 检验 方差 齐 


性 (程序 名 : exam0712 .BR). 


> attach(tree) 
> shapiro.test(Y[A==1]) 


Shapiro-Wilk normality test 


data: YI[A == 1] 


W = 0.9759, p-value = 0.8703 


> shapiro.test(Y[A==2]) 


Shapiro-Wilk normality test 


data: YI[A == 2] 


W = 0.9439, p-value = 0.2837 


> shapiro.test(Y[A==3]) 


Shapiro-Wilk normality test 


data: YI[A == 3] 


W = 0.9106, p-value = 0.06552 
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> shapiro.test(Y[B==1]) 
Shapiro-Wilk normality test 

data: YI[B == 1] 

W = 0.9835, p-value = 0.988 


> shapiro.test(Y[B==2]) 
Shapiro-Wilk normality test 

data: YI[B == 2] 

W = 0.8537, p-value = 0.01963 


> shapiro.test(Y[B==3]) 
Shapiro-Wilk normality test 

data: YI[B == 3] 

W = 0.9483, p-value = 0.4986 


> shapiro.test(Y[B==4]) 
Shapiro-Wilk normality test 

data: YI[B == 4] 

W = 0.9452, p-value = 0.4521 


> bartlett.test(Y“A, data=tree) 

Bartlett test of homogeneity of variances 
data: YbyA 
Bartlett’s K-squared = 0.59, df = 2, p-value = 0.7445 


> bartlett.test(Y“B, data=tree) 
Bartlett test of homogeneity of variances 
data: YbyB 
Bartlett’s K-squared = 2.0436, df = 3, p-value = 0.5634 


数据 只 对 因素 B 的 第 二 个 水 平 不 满足 正 态 性 要 求 ， 其 余 均 满足 ， 对 于 因素 
A 和 因素 B 均 满 足 方差 齐 性 要 求 . 
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7.3” 正 交 试验 设计 与 方差 分 析 


前 面 介绍 的 是 一 个 因素 或 两 个 因素 的 试验 ， 由 于 因素 较 少 ， 可 以 对 不 同 因 素 
的 所 有 可 能 的 水 平 组 合 做 试验 ， 这 种 称 为 全 面试 验 ， 当 因素 较 多 时 ， 虽然 理论 上 
仍 可 采用 前 面 的 方法 进行 全 面试 验 后 再 做 相应 的 方差 分 析 ， 但 是 在 实际 中 有 时 
会 遇 到 试验 次 数 太 多 的 问题 . 如 三 因素 四 水 平 的 问题 ， 所 有 不 同 水 平 的 组 合 有 
生 = 64 种 ,在 每 一 种 组 合 只 进行 一 次 试验 ， 也 需要 做 64 次 . 如 果 考 虑 更 多 的 因 
素 及 水 平 ， 则 全 面试 验 的 次 数 可 能 大 得 惊人 . 因此 在 实际 应 用 中 ， 对 于 多 因素 做 
全 面试 验 是 不 现实 的 . 于 是 可 以 考虑 是 否 选择 其 中 一 部 分 组 合 进 行 试验 ， 这 就 要 
用 到 试验 设计 方法 选择 合理 的 试验 方案 , 使 得 试验 次 数 不 多 , 但 也 能 得 到 比较 满 
意 的 结果 . 


7.3.1 ”用 正 交 表 安 排 试 验 


正 交 表 是 一 系列 规格 化 的 表格 ， 每 个 表格 都 有 一 个 记号 ， 如 Ls(2"), Lo(3) 
等 . 表 7.16 表示 的 是 正 交 表 7s(2") 和 正 交 表 Ze(3). 以 Lo(3”) 为 例 ， 工 表示 正 














表 7.16: 正 交 表 
7s(2 ) 表 Lo(34) 表 
试验 列 号 试验 列 号 
号 2 3 4 5 6 7 号 |1 2 3 4 
1 1 1 1 1 1 1 1 1 1 1 1 
2 1 -1 人 2 2 2 2 1 2 2 2 
3 2 2 1 1 2 2 3 |1 3 3 3 
4 和 下, 公 当 
4 2 2 2 2 1 1 
5 2 2 3 1 
5 1 2 1 2 1 2 
6 2 3 1 2 
6 1 2 2 1 2 1 7 有 
7 2 1 1 2 2 1 8 3 2 1 3 
8 9 | 9 1 了 9 3 号 人 了 








交 表 ，9 表示 正 交 表 的 行 数 ， 表 示 需 要 试验 次 数 . 4 是 正 交 表 的 列 数 ， 表 示 最 多 
可 以 安排 的 因素 的 个 数 . 3 是 因素 水 平 数 ， 表 示 此 表 可 以 安排 三 水 平 的 试验 . 
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从 表 7.16 可 见 ， Lo(34) 有 9 行 ， 4 列 ， 表 中 由 数字 1, 2, 3 组 成 ， Ls(2”) 
有 8 行 ，7 列 ， 表 中 数字 由 1, 2 组 成 . 
用 正 交 表 安 排 试验 时 , 根据 因素 和 水 平 个 数 的 多 少 以 及 试验 工作 量 的 大 小 来 
考虑 用 哪 张 正 交 表 ， 下 面 举例 说 明 . 
例 7.13 为 提高 某 种 化 学 产品 的 转化 率 (只 ), 考虑 三 个 有 关 因 素 : 反应 温度 4("C)， 
反应 时 间 B(min) 和 用 破 量 C( 匈 ). 各 因素 选取 三 个 水 平 ， 如 表 7.17 所 示 . 如 
表 7.17: 转化 率 试验 因素 水 平 表 





下 一 
1 2 3 
反应 温度 4(2C ) 80 85 90 
反应 时 间 B(min) 90 120 150 
用 碱 量 C(%) 5 6 7 


何 用 正 交 表 安 排 试验 得 到 较 好 的 生产 方案 ? 
解 ， 如 果 做 全 面试 验 ， 则 需要 33 = 27 次 试验 . 者 用 正 交 表 Ze(30), 仅 做 9 
次 试验 . 将 三 个 因素 A, B, C 分 别 放 在 Ze(3 ) 表 的 任意 三 列 上 ,， 如 将 A, B,C 分 
别 放 在 第 1, 2, 3 列 上 .将 表 中 A, B,C 所 在 的 三 列 的 数字 1, 2, 3 分 别 用 相应 的 
因素 水 平 去 代替 ,得 9 次 试验 方案 . 以 上 工作 称 为 表 头 设计 . 再 将 9 次 试验 结果 
转化 率 数据 列 于 表 上 ( 见 表 7.18). 
计算 各 种 因素 和 水 平 下 转化 率 的 平均 值 (尽管 计算 非常 简单 ,但 为 了 便于 推 
广 起 见 ， 还 是 用 R 软件 进行 计算 ). 
用 数据 框 形式 输入 转化 率 试验 的 正 交 表 数据 , 并 计算 各 个 因素 水 平 下 的 平均 
值 (程序 名 :exam0713 .BR). 
> rate<-data.frame( 
A=g1(3,3) ， 
B=g1(3,1,9) ， 
C=factor(c(1,2,3,2,3,1,3,1,2)) ， 
Y=c(31，54，38，53，49，42，57，62，64) 
) 
K<-matrix(0, nrow=3, ncol=3, dimnames=list(1:3, c("A",'"B","C"))) 


> for (j in 1:3) 





Vv 
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CO DD ~ 


V VV VvV VvV VvV YY 


> 


表 7.18: 转化 率 试验 的 正 交 表 





试验 号 反应 时 间 B | 催化 剂 含量 C | 转化 率 


[EN 
Ol 
c OO ~ 


[Ne 


5 


‘Oi 00 OD OO 本 0 
| 一 


(1) 
6 (2) 
7 (3) 
6 (2) 
7 (3) 
5 (1) 
7 (3) 
5 (1) 
6 (2) 


[Ne 


for (i in 1:3) 
K[i,j]<-mean(rate$Y [rate[j]==i]) 


K 
A BC 
41 47 45 
48 55 57 
61 48 48 
用 A, B, C 三 列 的 值 Ki, K2, Ks 作 图 ， 其 命令 如 下 : 
plot(as.vector(K), axes=F, xlab="Level", ylab="Rate") 
xmark<-c (NA, "Al", "A2", "A3", "Bi", "B2","B3", "C1", "C2", "C3" ,NA) 
axis(1,0:10,1labels=xmark) 
axis(2,4*10:16) 
axis(3,0:10,1labels=xmark) 
axis(4,4*10:16) 


lines(K[,"A"]); lines(4:6, K[,"B"]); lines(7:9,K[,"C"]) 


图 形 如 图 7.3 所 示 . 


从 图 7.3 可 以 看 出 : 


31 
54 
38 
53 
49 
42 
57 
62 
64 
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(1) 温度 越 高 其 转化 率 越 高 ， 以 90"C(43) 最 好 ， 还 应 探索 更 高 温度 的 情况 ; 


(2) 反应 时 间 以 120 分 钟 (Bo) 转化 率 最 高 ，; 


428 第 七 章 方差 分 析 





吕 J 上 
CO CO 
CD _| 上 
LOD LD 
QI J |_ AQq 
0 LO LO 
Pd 
vo 
Cr 
co -| © 
寸 _| LA 
寸 守 











Level 


图 7.3: 三 因素 与 指标 关系 数 


(3) 用 碱 量 以 6%(C2) 转化 率 最 高 . 

综合 起 来 ， 43B2C2 可 能 是 较 好 的 工艺 条 件 . 但 是 ， 我 们 发现 这 个 工艺 条 件 
并 不 在 九 次 试验 中 ,， 它 是 否 好 还 要 通过 实践 来 检验 . 因此 需要 对 于 A3B2C2 再 作 
一 次 试验 , 得 到 相应 的 转化 率 (74%), 并 与 最 好 的 试验 (第 9 号 试验 ，A3B3C2) 进 
行 比较 , 它 的 转化 率 为 64%, 所 以 可 以 说 明 选 出 的 工艺 是 比较 好 的 . 可 以 证 明 , 当 
因素 之 间 没 有 相互 作用 时 ， 用 这 种 方法 选 出 的 工艺 条 件 就 是 全 面试 验 中 最 好 的 . 





7.3.2 ” 正 交 试验 的 方差 分 析 


对 于 例 7.13 的 试验 ， 如 果 用 交叉 分 组 全面 试验 需 27 次 ,而 正 交 试验 只 用 了 
9 次 ， 自 然 要 问 ， 这 9 次 试验 是 否 能 大 体 上 反映 27 次 试验 的 结果 ?如 果 能 反映 
又 是 为 什么 ? 

首先 假定 三 个 因素 之 间 没 有 交互 作用 ， 9 次 试验 的 结果 以 Y,y2,*…, ye 表 
示 ， 根 据 一 般 线 性 模型 的 假定 ， 数 据 可 分 解 为 








Yy1 三 WTAl bl 十 ci 十 el， 

















y2 = /十 al 十 加 十 co 十 2) 
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ys3 = /十 al 十 b9 十 cs 十 3， 
ya = /十 a2 十 0 十 co 十 E4) 
ys = 内 十 aa 十 刀 十 cas 十 E5， 
ye = /十 aa 十 0 十 cl 十 56， 
7 三 HW 二 a3 二 01 十 C3 十 &7， 
Ys = H+as+b2 tc es, 
ye = 从 十 as 十 0 十 co 十 E9， 





其 中 > 人 Se si ~ No (i 二 1,2,.…,9), 且 相 互 独立 . 
i=1 j=1 k=1 
对 此 模型 考虑 如 下 三 种 假设 的 检验 问题 : 


万 01 : ad 一 0 一 03 王 0， 
Ho : b1 = b> = bs = 0, 


Hos : cl = C2 = C3= 0. 


者 Hoi 成 立 ， 则 说 明 因 素 A 的 三 个 水 平 对 指标 y 的 影响 无 显著 差异 . 类 似 地 ， 
奉 Hoz( 或 Hos) 成 立 ， 则 表示 因素 B( 因 素 C) 的 三 个 水 平 对 指标 y 的 影响 无 显著 
差异 . 

类 似 于 单 因 素 和 双 因 素 方法 ， 对 于 正 交 试验 也 可 以 导出 相应 的 方差 分 析 表 
(具体 过 程 可 见 其 他 的 统计 书籍 ), 其 表格 形式 如 表 7.19 所 示 . 


表 7.19: 正 交 试验 设计 的 方差 分 析 表 


方差 来 源 
因素 1 
因素 2 


因素 m 
误 差 
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在 表 7.19 中 ， 7 为 试验 总 次 数 ， m 为 因素 个 数 ， a 为 每 个 因素 的 试验 水 
平 ，7 为 每 个 水 平 的 试验 次 数 ， 即 n = ra. P- 值 与 前 面 方差 分 析 表 中 的 意义 是 
相同 的 ， 即 当 p; < a, 则 认为 因素 i 有 显著 差异 . 
例 7.14 ( 续 例 7.13) 对 正 交 试验 进行 方差 分 析 . 

解 , 直接 用 R 软件 求解 
> rate.aov<-aov(Y“A+B+C, data=rate) 
> source('"anova.tab.R'"); anova.tab(rate.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 2 618 309 34.3333 0.02830 * 

B 2 114 57 6.3333 0.13636 

C 2 234 117 13.0000 0.07143 . 

Residuals 2 18 9 

Total 8 984 

Signif. codes: 0 ’***’ O.001 x**’” O.01 ’*’” 0.05 ”.”0.1 ”?”1 


从 计算 结果 可 以 看 到 ， 转 化 率 对 于 因素 A 很 显 若 ， 所 以 因素 A 水 平 的 选取 
很 重要 ， 转 化 率 对 因素 C 的 显著 ， 因 此， 因素 C 水 平 的 选取 也 重要 ， 因 素 B 不 
显著 ， 所 以 为 了 节约 能 源 ， 可 以 选择 最 短 的 反映 时 间 ， 因 此 ， 工 艺 条 件 可 以 选择 
43DPIC2. 





7.3.3 ”有 交互 作用 的 试验 
在 作 双 因素 方差 分 析 时 ， 讲 到 因素 之 间 有 搭配 作用 ， 这 个 措 配 作用 被 称 为 交 
互 作用 .实际 上 ， 在 正 交 试验 设计 中 ， 也 可 以 分 析 因 素 之 间 交 互 作用 的 影响 . 
还 是 用 例子 说 明 问 题 
例 7.15 在 杭 棉 机 上 纺 粘 锦 混纺 纱 ， 为 了 提高 质量 ， 选 了 三 个 因素 ， 每 个 因素 两 
个 水 平 ， 如 表 7.20 所 示 ， 三 个 因素 间 可 能 有 交互 作用 .要 设计 一 个 试验 方案 . 
解 : 首先 设计 表 头 . 这 是 一 个 三 因素 两 水 平 的 试验 , 用 正 交 表 Ls(2") 比较 合 
适 ( 见 表 7.16). 对 于 7Zs(2 ) 还 有 一 个 各 列 间 的 交互 作用 表 ， 如 表 7.21 所 示 . 
如 果 将 A 放 在 第 1 列 ，B 放 在 第 2 列 ， 查 表 7.21 的 第 “1 行 ， 第 “2” 列 ， 
对 应 的 数 是 3, 即 第 3 列 反映 了 A x B. 如 果 把 A 放 在 第 3 列 ，B 放 在 第 5 列 ， 
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表 7.20: 纺 粘 锦 混纺 纱 的 试验 因素 水 平 表 


因 天 水 国 因 
1 2 
金属 针 布 (A) 进口 的 国产 的 
产量 水 平 (B) 6 千克 10 千克 
锡 林 速 度 (CC) 238 转 /分 320 转 / 分 





列 号 
有 和 3 4 5 6 7 
1 3 2 5 4 7 6 
2 1 6 7 4 5 
3 7 6 5 4 
4 1 2 3 
5 2 3 
6 1 





查 表 7.21“3” 行 “5” 列 ， 对 应 的 数 是 6, 即 A x B 在 第 6 列 . 这 样 一 个 表 对 于 如 
何 安排 试验 是 很 重要 的 . 
通过 分 析 ， 我 们 将 A 放 在 第 1 列 ， B 放 在 第 2 列 ， 则 第 3 列表 示 4 x B， 
C 放 在 第 4 列 ， 则 第 5 列表 示 A x C, 第 6 列表 示 B x C, 第 7 列 是 空 列 ， 然 后 
再 将 8 次 试验 结果 棉 结 粒 数 放 在 第 8 列 上 ( 见 表 7.22). 
做 方差 分 析 . 用 数据 框 输入 数据 ， 用 aov() 函数 做 方差 分 析 ， 用 自 编 的 函数 
anova.tab() 列 出 方差 分 析 表 (程序 名 : exam0715 .BR). 
> cotton<-data.frame( 
Y=c(0.30, 0.35, 0.20, 0.30, 0.15, 0.50,0.15,0.40)，, 
A=g1(2,4), B=gl(2,2,8), C=g1(2,1,8) 
) 
> cotton.aov<-aov(Y”A+B+C+A:B+A:C+B:C, data=cotton) 


二 第 七 章 方差 分 析 
表 7.22: 纺 粘 锦 混纺 纱 试验 的 正 交 表 
列 号 
试验 号 


Pb |x |w 
WH 


a 


6 
_BxC 

1 

2 

2 

1 

1 

之 

2 

1 


1 
2 
2 
1 
2 
1 
1 
2 


1 
2 
1 
2 
2 
1 
2 
1 


oo DD oO A 术 WW 





> source('"anova.tab.R'"); anova.tab(cotton.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 1 0.000313 0.000313 0.1111 0.7952 
B 1 0.007812 0.007812 2.7778 0.3440 
C 1 0.070313 0.070313 25.0000 0.1257 
A:B 1 0.000312 0.000312 0.1111 0.7952 
A:C 1 0.025313 0.025313 9.0000 0.2048 
B:C 1 0.000313 0.000313 0.1111 0.7952 
Residuals 1 0.002812 0.002812 

Total 7 0.107188 


从 计算 结果 可 以 看 出 ， 棉 结 粒 数 关 于 任何 因素 都 不 显著 . 

再 作 进 一 步 的 分 析 . 对 于 因素 A, 因素 A:B 和 因素 B:C, 它们 的 下 值 很 小 ， 
P 值 很 大 ， 因 此 ， 它 们 影响 棉 结 粒 数 更 不 显著 (也 就 是 说 ， 是 次 要 因素 ). 所 以 在 
分 析 模 型 中 ， 将 这 三 个 因素 去 掉 ， 


> cotton.new<-aov(Y“B+C+A:C, data=cotton) 








> anova.tab(cotton.new) 
Df Sum Sq Mean Sq F value Pr(>F) 
B 1 0.007812 0.007812 6.8182 0.079605 . 
1 0.070313 0.070313 61.3636 0.004332 ** 
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C:A 2 0.025625 0.012812 11.1818 0.040678 * 

Residuals 3 0.003437 0.001146 

Total 7 0.107187 

Signif. codes: 0 ’***’ O.001 ’**’” O.01 ’*’” 0.05 ”.”0.1 ”?”1 





从 结果 可 以 看 出 ， 最 显著 的 是 因素 C, 其 次 是 交互 效应 AxC, 最 后 是 因素 B. 那 
么 我 们 选择 哪些 因素 作为 最 后 的 结果 呢 ? 还 需要 计算 各 个 因素 下 的 均值 . 为 方便 
起 见 ， 先 编写 一 个 函数 ， 将 各 因素 的 交互 情况 计算 出 来 . 
> ab<-function(x,y)t 

n<-length(x); z<-rep(0,n) 

for (i in 1:n) 

if (x[i]==y[i]){z[i]<-1} else{z[i]<-2} 
factor (2z) 
} 

> cotton$AC<-ab(cotton$A, cotton$C) 


再 计算 各 因素 的 均值 . 
> K<-matrix(0, nrow=2, ncol=4, 
dimnames=list(1:2, c("A", "B", "C", "AC'"))) 
> for (j in 2:5) 
for (i in 1:2) 
K[i,j-1]<-mean(cotton$Y[cotton[j]==i]) 


A B C AC 
1 0.2875 0.3250 0.2000 0.3500 
2 0.3000 0.2625 0.3875 0.2375 


因为 因素 C 最 显著 ， 所 以 先 选 择 因 素 C, 选 因素 C 用 第 1 个 水 平 (因为 棉 结 
粒 数 越 少 越 好 ), 因素 AxC 次 显著 ， 所 以 再 选择 因素 AC, 应 该 是 第 2 个 水 平 . 由 
于 因素 C 已 选择 第 1 个 水 平 ， 所 以 因素 A 只 能 选择 第 2 个 水 平 (注意 ， 这 与 直 
接 选 择 因素 A 是 矛盾 的 ， 这 是 因为 棉 结 粒 数 关 于 因素 AC 是 显著 的 ， 而 关于 因 
素 A 是 不 显著 的 ， 所 以 要 从 因素 AC 来 考虑 问题 ) 最 后 ， 选 择 因素 B, 应 是 第 2 
个 水 平 ， 最 后 结果 为 A42B2C1. 即 较 好 的 生产 方案 选择 为 : 金属 针 布 是 国产 的 ; 
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产量 是 10 千克 ; 锡 林 速 度 为 238 转 / 分 . 


7.3.4 有 重复 试验 的 方差 分 析 


类 似 前 面 的 分 析 ， 对 于 正 交 试验 设计 也 可 以 考虑 带 有 重复 试验 的 数据 . 这 里 
仅 用 一 个 例子 说 明 . 
例 7.16 在 研究 四 种 药物 对 淡色 库 蚁 的 杀 灭 作用 的 试验 中 , 每 种 药物 取 三 水 平 ， 
试验 安排 如 表 7.20 所 示 . 试 采取 Lo(34) 正 交 表 ， 在 不 考虑 交互 作用 ， 相 同 试 


表 7.23: 对 淡色 库 蚊 杀 灭 作用 试验 的 试验 因素 水 平 表 


水 平 

1 2 3 
A 2% 4%7 5% 
B 0% 1% 2% 
C 0% 1% 3% 
D 0% 1% 3% 





了 验 条 件 下 均 做 4 次 重复 试验 下 ， 检 验 四 种 药物 对 淡色 库 蚁 杀 灭 作用 有 无 差别 ， 
试 选择 较 好 灭 蚊 方 案 . 
解 : 用 Lo(3”) 正 交 表 列 出 表 头 ， 并 将 试验 结果 填 在 表 后 的 各 列 . 
用 数据 框 输入 数据 ， 再 作 方 差分 析 . 然后 计算 各 因素 情况 下 对 淡色 库 蚊 的 
50% 击 倒 时 间 平 均值 . 
> mosquito<-data.frame( 
A=g1(3, 12), B=gl(3,4,36), 
C=factor(rep(c(1,2,3,2,3,1,3,1,2) ,rep(4,9))) ， 
D=factor(rep(c(1,2,3,3,1,2,2,3,1) ,rep(4,9)) ) ， 
Y=c( 9.41, 7.19, 10.73, 3.73, 11.91, 11.85, 11.00, 11.72, 
10.67, 10.70, 10.91, 10.18, 3.87,， 3.18, 3.80， 4.85， 
4.20, 5.72, 4.58, 3.71, 4.29, 3.89, 3.88， 4.71， 
7.62, 7.01, 6.83, 7.41, 7.79, 7.38, 7.56, 6.28， 
8.09,， 8.17,， 8.14, 7.49) 
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表 7.24: 四 种 对 淡色 库 蚊 的 50% 击 倒 时 间 的 正 交 试验 表 


试验 号 50% 击 倒 时 间 /s 
1 1 1 1 1 9.41 7.19 10.73 
2 1 2 2 2 | 1191 11.85 11.00 
3 1 3 3 3 | 10.67 10.70 10.91 
4 2 1 2 3 | 3.87 3.18 3.80 
5 2 2 3 1 | 4.20 5.72 4.58 
6 2 3 1 2 | 4.29 3.89 3.88 
7 3 1 3 2 7.62 7.01 6.83 
8 3 2 3 7.79 7.38 7.56 
9 3 3 2 1 8.09 8.17 8.14 





> mosquito.aov<-aov(Y“A+B+C+D, data=mosquito) 

> source("anova.tab.R"); anova.tab(mosquito.aov) 

Df Sum Sq Mean Sq F value Pr (>F) 
2 201.310 100.655 77.4884 6.504e-12 
2 15.920 7.960 6.1280 0.006393 
2 13.297 6.648 5.1182 0.013042 
2 5.021 2.510 1.9326 0.164282 

Residuals 27 35.072 1.299 

Total 35 270.619 


号 QQ 对 


Signif. codes: 0 ’***’ O.001 ’**’ O0.01 ’*’ 0.05 
> K<-matrix(0, nrow=3, ncol=4, 
dimnames=list(1:3, c("A", "B", "C", "D"))) 
> for (j in 1:4) 
for (i in 1:3) 
K[i,j]<-mean(mosquito$Y [mosquito[j]==i]) 


A B C D 
1 10.000000 6.302500 6.403333 6.763333 


炒米 水 


** 


7 


0 


3.73 
11.72 
10.18 
4.85 
3.71 
4.71 
7.41 
6.28 
7.49 


”1 
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2 4.223333 7.808333 7.839167 7.676667 
3 7.480833 7.593333 7.461667 7.264167 


灭 蚊 效 果 对 因素 的 显著 性 依次 是 因素 A 、 因 素 B 、 因 素 C 和 因素 D( 因 素 D 
不 显著 ). 从 计算 出 的 平均 时 间 (时 间 越 短 越 好 ), 可 以 看 出 ， 选 择 较 好 的 方案 是 : 


A BI1C1D!1. 


习题 七 


7.1 三 个 工厂 生产 同一 种 零件 ， 现 从 各 厂 产品 中 分 别 抽取 4 件 产品 作 检 测 ， 其 
检测 强度 如 表 7.25 所 示 . 


表 7.25: 产品 检测 数据 


工厂 零件 强度 

四 115 116 98 83 
i 103 107 118 116 
丙 89 85 97 





(1) 对 数据 作 方 差分 析 , 判断 三 个 厂 生 产 的 产品 的 零件 强度 是 否 有 显著 差异 ; 
(2) 求 每 个 工厂 生产 产品 零件 强度 的 均值 ， 作 出 相应 的 区 闻 估 计 (a = 0.05); 
(3) 对 数据 作 多 重 检 验 . 
7.2 有 四 种 产品 Ai,1i 一 1,2,3 分 别 为 国内 甲 、 忆 、 丙 三 个 工厂 生产 的 产品 ， 
44 国外 同类 产品 ,， 现 从 各 厂 分 别 取 10, 6, 6 和 2 个 产品 做 300 小 时 连续 磨损 老 
化 试验 ， 得 变化 率 如 表 7.26 所 示 . 假定 各 厂 产 品 试验 变化 率 服 从 等 方差 的 正 态 


表 7.26: 磨损 老化 试验 数据 


产品 变化 率 
41 l8 19 17 15 16 13 18 22 17 
42 19 26 28 23 25 
43 25 18 22 27 24 
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分 布 . 
(了) 试问 四 个 厂 生产 的 产品 的 变化 率 是 否 有 显著 差异 ? 

(2) 着 有 差异 ,请 做 进一步 的 检验 .i 国内 产品 与 国外 产品 有 无 显著 差异 ? 
ii) 国内 各 厂家 的 产品 有 无 显著 差异 ? 

7.3 某 单 位 在 大 白鼠 营养 试验 中 ,随机 将 大 白鼠 分 为 三 组 ， 测 得 每 组 12 只 大 和 白 
筷 尿 中 氢气 的 排出 量 X(mg/6 d), 数据 由 表 7.27 所 示 .， 试 对 该 资料 作 正 态 性 检 


表 7.27: 白鼠 尿 中 氨氮 检测 数据 
27 52 


45 53 44 51 53 54 37 47 57 48 42 
66 66 86 56 52 76 83 72 73 59 53 





验 和 方差 齐 性 检验 . 

7.4 以 小 白鼠 为 对 象 研 究 正 常 肝 核糖 核酸 (RNA) 对 冶 细 胞 的 生物 作用 ,试验 分 
别 为 对 照 组 (生理 盐水 ) 、 水 层 RNA 组 和 酚 层 RNA 组 ， 分 别 用 此 三 种 不 同 处 理 
话 导 肝癌 细胞 的 果糖 二 磷酸 酯 酶 (PDP 酶 ) 活力 ， 数 据 如 表 7.28 所 示 .， 问 三 种 


表 7.28: 三 种 不 同 处 理 的 诱导 结果 
诱 导 结 果 
2.79 2.69 3.11 3.47 1.77 2.44 2.83 2.52 


处 理 方法 
对 照 组 
水 乒 RNA 组 
酚 层 RNA 组 


3.83 3.15 4.70 3.97 2.03 2.87 3.65 5.09 
5.41 3.47 4.92 4.07 2.18 3.13 3.77 4.26 





不 同 处 理 的 诱导 作用 是 否 相 同 ? 

7.5 为 研究 人 们 在 催 眼 状态 下 对 各 种 情绪 的 反应 国 是 否 有 差异 ， 选 取 了 8 个 受 
试 者 ， 在 催眠 状态 下 ， 要 求 每 人 按 任 意 次 序 做 出 恐惧 、 恰 快 、 忧 虑 和 平静 4 种 反 
应 ， 表 7.29 给 出 了 各 受 试 者 在 处 于 这 4 种 情绪 状态 下 皮肤 的 电位 变化 值 ， 试 
在 a 二 0.05 下 ， 检验 受 试 者 在 催眠 状态 下 对 这 4 种 情绪 的 反应 力 是 否 有 显著 差 
异 . 
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表 7.29: 4 种 情绪 状态 下 皮肤 的 电位 变化 值 (单位 :_ mV) 





受 试 者 
情绪 状态 
1 2 3 4 5 6 7 8 
环 惧 23:] 57.6 10.5 23.6 11.9 54.6 21.0 20.3 
愉快 22.7 53.2 9.7 19.6 13.8 47.1 13.6 23.6 
忧虑 22.5 53:7 10.8 21:1 13.7 39.2 13.7 16.3 
平静 22.6 53.1 8.3 21.6 13.3 37.0 14.8 14.8 


7.6 为 了 提高 化 工厂 的 产品 质量 ， 需 要 寻求 最 优 反应 温度 与 反应 压力 的 配合 ， 
为 此 选择 如 下 水 平 

4: 反应 温度 ( 吧 ) 60 70 80 

BB: 反应 压力 (公斤) 2 25 3 
在 每 个 AiB; 条件 下 做 两 次 试验 ， 其 产量 如 表 7.30 所 示 . 


表 7.30: 试验 数据 


As 
Bi 6.8 6.4 
B2 4.0 3.8 
B; 6.5 TO 





(1) 对 数据 作 方差 分 析 ( 应 考虑 交互 作用 ); 

(2) 求 最 优 条 件 下 平均 产量 的 点 估计 和 区 间 估 计 ; 

(3) 对 AiB; 条 件 下 平均 产量 作 多 重 比较 。 
7.7 某 良 种 繁殖 场 为 了 提高 水 稻 产 量 ， 制 定 试验 的 因素 如 表 7.31 所 示 ， 试 选择 
Lo(34) 正 交 表 安排 试验 ， 假 定 相应 的 产量 为 (单位 ， kg/100m?) 

62.925 57.075 51.6 55.05 58.05 56.55 63.225 50.7 54.45 

试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 较 好 的 种 殖 条 件 . 
7.8 菜单 位 研究 四 种 因素 对 钉螺 产 卵 数 (Y) 的 影响 ， 制 定 试验 的 因素 如 表 7.32 
所 示 . 试 选择 Le(27) 正 交 表 安 排 试验 ,假定 相应 的 钉螺 产 卵 数 为 (单位 个) 
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表 7.31: 水 稻 的 试验 因素 水 平 表 
平 





品种 罕 叶 青 8 号 南 二 矮 5 号 珍珠 矮 11 号 
密度 4.50 棵 /100m2 | 3.75 棵 /100m2 | 3.00 棵 /100m2 
施肥 量 0.75 kg/100m2 | 0.375 kg/100m? | 1.125 kg/100m? 


86 95 91 94 91 96 83 88 
试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 较 好 灭 螺 方案 (考虑 有 交互 作用 ). 


表 7.32: 钉螺 产 卵 影响 试验 因素 的 水 平 表 





表 一 - 
1 2 
温度 (A) 5°C 10°C 
含 和气 量 (B) 0.5 5.0 
含水 量 (O) 10% 30% 
pH 值 (DD) 6.0 8.0 


7.9 某 工 厂 为 了 提高 零件 内 孔 研磨 工序 质量 进行 工艺 的 参数 选 优 试验 ， 考 察 孔 
的 锥 度 值 ， 希望 其 越 小 越 好 . 在 试验 中 考察 因子 的 水 平 表 7.33. 试 选择 Ls(2') 正 


表 7.33: 因子 水 平 表 


二 水 国 因 
1 2 
研 孔 工艺 设备 (A) 通用 夹具 专用 夹具 
生铁 研 圈 材质 (已 ) 特殊 铸铁 一 般 灰 铸铁 
留 研 量 (mm) (COC) 0.01 0.015 





交 表 安排 试验 ， 其 表 头 设计 如 表 7.34 所 示 .， 在 每 一 条 件 下 加 工 了 四 个 零件 ， 测 
量 其 难度， 试验 结果 如 表 7.35 所 示 ， 试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 
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表 头 设计 


列 号 


试验 号 


oo A DD oO 本 WW LL 


较 好 工艺 参数 指标 . 








1.5 
1.0 
2.5 
2.5 
1.5 
1.0 
1.8 
1.9 
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表 7.34:; 试验 结果 


B C 

2 3 4 5 

表 7.35: 试验 结果 

试 验 值 

1.7 1.3 
1.2 1.0 
2.2 3.2 
2.5 1.5 
1.8 1.7 
2.5 1.3 
1.5 1.8 
2.6 2.3 


1.5 
1.0 
2.0 
2.8 
1.5 
1.5 
2:2 
2.0 
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多 元 分 析 (multivariate analysis) 是 多 变量 的 统计 分 析 方 法 ， 是 数理 统计 中 
应 用 广泛 的 一 个 重要 分 支 , 包含 了 丰富 的 理论 成 果 与 众多 的 应 用 方法 ， 它 主要 包 
括 回归 分 析 、 方 差分 析 、 判 别 分 析 、 唆 类 分 析 、 主 成 分 分 析 、 因 子 分 析 和 典型 相 
关 分 析 等 . 

有 关 回 归 分 析 和 方差 分 析 的 内 容 已 在 第 六 章 、 第 七 章 作 了 介绍 ， 本 章 介绍 判 
别 分 析 与 聚 类 分 析 的 内 容 . 这 两 部 分 内 容 有 一 个 共同 点 ， 就 是 对 样本 进行 分 类 . 
但 两 者 也 有 所 不 同 ， 判 别 分 析 是 在 已 知 有 多 少 类 , 并且 在 有 训练 样本 的 前 题 下 ， 
利用 训练 样本 得 到 判别 函数 ， 对 得 测 样本 进行 分 类 . 而 聚 类 分 析 是 预先 不 知道 有 
多 少 类 的 情况 下 ， 根 据 某 种 规则 将 样本 (或 指标 ) 进行 分 类 . 

本 章 人 简单 介绍 判别 分 析 和 聚 类 分 析 的 基本 原理 与 方法 ,着重 介绍 如 何 应 用 及 
软件 对 数据 作 判 别 分 析 和 聚 类 分 析 . 

在 下 章 介绍 多 元 分 析 的 另 一 部 分 内 容 一 主 成 分 分 析 、 因 子 分 析 和 典型 相关 
分 析 . 











8.1 判别 分 析 


判别 分 析 是 用 以 判别 个 体 所 属 群 体 的 一 种 统计 方法 , 它 产 生 于 20 世纪 30 年 
代 ， 近 年 来 ， 在 许多 现代 自然 科学 的 各 个 分 文 和 技术 部 门 中 ， 得 到 广泛 的 应 用 . 

例如 ,利用 计算 机 对 一 个 人 是 否 有 心脏 病 进 行 诊断 时 ,可 以 取 一 批 没有 心脏 
病 的 人 , 测 其 2 个 指标 的 数据 ,然后 再 取 一 批 已 知 患 有 心 胜 病 的 人 ,同样 也 测 得 
2 个 相同 指标 的 数据 ， 利 用 这 些 数据 建立 一 个 判别 函数 ， 并 求 出 相应 的 临界 值 ， 
这 时 对 于 需要 进行 诊断 的 人 , 也 同样 测 其 2 个 指标 的 数据 ,将 其 代入 判别 阴 数 ， 
求 得 判别 得 分 ， 再 依 判别 临界 值 ， 即 可 以 判断 此 人 是 属于 有 心脏 病 的 那 一 群体 ， 
还 是 属于 没有 心脏 病 的 那 一 群体 ,又 如 在 考古 学 中 ,对 化 石 及 文物 年 代 的 判断 ; 
在 地 质 学 中 ， 判 断 是 有 矿 还 是 无 矿 ; 在 质量 管理 中 ， 判 断 某 种 产品 是 合格 品 ， 还 
是 不 合格 品 ; 在 植物 学 中 ， 对 于 新 发 现 的 一 种 植物 ， 判 断 其 属于 那 一 科 , 总 之 判 
别 分 析 方 法 在 很 多 学 科 中 有 着 广泛 的 应 用 . 

判别 方法 有 多 种 ， 这 里 主要 介绍 的 是 最 常用 的 判别 方法 ,而 且 是 两 类 群体 的 
判别 方法 . 
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8.1.1 ”距离 判别 

所 谓 判 列 癌 题 ， 就 是 将 维 Euclid 空间 RY 划分 成 两 个 互 不 相交 的 区 域 Rj， 
Rh, “0 Rx, 即 门 R; = 0, U R; = Pe. 当 ZE Ri 1 一 ,270 就 判定 x 属于 

j=1 j=1 

总 体 Xi i 二 1,2,…,. 特别 ， 当 二 2 时 ， 就 是 两 个 总 体 的 判别 问题 . 

距离 判别 是 最 简单 、 直 观 的 一 种 判别 方法 ,该 方法 适用 于 连续 型 随机 变量 的 
判别 类 ， 对 变量 的 概率 分 布 没有 限制 . 

1. Mahalanobis 距离 的 概念 

通常 我 们 定义 的 距离 是 Euclid 距离 (简称 欧 氏 距离 ). 若 z, y 是 2 中 的 两 
个 点 ， 则 zx 与 y 的 距离 为 


d(z,y) = lz -yl2 = V7- (2 —Y. 





但 在 统计 分 析 与 计算 中 ，Euclid 距离 就 不 适用 了 , 看 一 下 下 面 的 例子 ( 见 图 8.1). 























HL A 上 


图 8.1: 不 同方 差 的 正 态 分 布 表 


为 简单 起 见 ， 考 虑 p = 1 的 情况 . 设 和 ~ N(0,1), 工 ~ N(4,27), 绘 出 相应 
的 概率 密度 曲线 ,如 图 8.1 所 示 . 考虑 图 中 的 4 点 ，4 点 距 X 的 均值 Wi = 0 较 
近 , 距 Y 的 均值 /2 = 4 较 远 .但 从 概率 角度 来 分 析 问 题 ， 情 况 并 非 如 此 . 经 计 
算 ，4 点 的 7x 值 为 1.66, 也 就 是 说 ，4 点 距 M =0 是 1.66c, 而 4 点 距 M=4 
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却 只 有 1.1702, 因此 ， 从 概率 分 布 的 角度 来 讲 ， 应 该 认为 4 点 距 jw2 更 近 一 点 . 
所 以 ， 在 定义 距离 时 ， 要 考虑 随机 变量 方差 的 信息 . 
定义 8.1 设 X,Y 是 从 均值 为 4, 协 方差 阵 为 二 的 总 体 对 中 机 取 的 样本 ， 则 总 体 
六 内 两 点 与 Y 的 Mahalanobis 距离 (简称 马 氏 距离 ) 定义 为 

d(x,y) = V (2 —Yy) Yr oy). (8.1) 
定义 样本 7Z 与 总 体式 的 Mapnalanobis 距离 为 


d(x, X) = V(r- WY (rH). (8.2) 


2. 判别 准则 与 判别 函数 

在 这 里 , 讨论 两 个 总 体 的 距离 判别 , 分 别 讨论 两 总 体 协 方差 阵 相同 和 协 方差 
阵 不 同 的 情况 . 

设 总 体 Xi 和 Xs 的 均值 问 量 分 别 为 jv 和 p12, 协 方差 阵 分 别 为 2; 和 52, 今 
给 一 个 样本 z, 要 判断 x 来 自 哪 一 个 总 体 . 

首先 考虑 两 个 总 体 Xi 和 Xs 的 协 方差 相同 的 情况 ， 即 


WAFL 21 一 22 一 忆 . 


要 判断 zx 是 属于 哪 一 个 总 体 ， 需 要 计算 x 到 总 体 X; 和 Xo 的 Mahalanobis 距离 
的 平方 中 (x, XX1) 和 (x,X2), 然后 进行 比较 ， 若 (7,X1) < 中 (x, XX2), 则 判定 
2 属于 Xi; 否则 判定 xz 来 自 X2. 由 此 得 到 如 下 判别 准则 : 


Ri= {7z| d(x, Xi) < d(x, Xa)}, Ro = {7r| (zr,X) > (zr, Xa)}. (8.3) 











现在 引进 判别 函数 的 表达 式 ， 考 虑 (7x, Xi1) 与 Q(z,X2) 之 间 的 关系 ， 有 
F(X) = XS po D(a) (Da) ld) 
= (2 7 ys—27 2 pt HY 2) 
一 (zz 一 277D + uly TO 
= 227 2 (po pp2) + (p+ 12) > 1(p2 — p11) 
Ce ma- 网 


= (8 
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其 中 五 = 外 证 全 是 两 个 总 体 的 平均 值 ， 
令 
ulz) = (¢— DE pa), (8.5) 
w(x) 为 两 总 体 距 离 的 判别 函数 ， 因 此 判别 准则 (8.3) 变 为 
局 ={fzluo>o， 有 到 ={zlolo)<0 (8.0) 


在 实际 计算 中 ,总 体 的 均值 与 协 方差 阵 是 未 知 的 , 因此 总 体 的 均值 与 协 方差 
阵 需 要 用 样本 均值 与 协 方差 阵 来 代替 . 设 zz,… ,x 由 是 来 自 总 体 Xi 的 mm 
个 样本 ， 2 2，… 包 是 来 自 总 体 2 的 na 个 样本 ， 由 则 样本 的 均值 与 协 方 
差 阵 为 

















AR 
人 (8.7) 
Ti jl 
1 2 ni 
全 一 (0) 7 (2) 一 人 
和 RE (a 20) (a ) 
2 一 1 j=1 
1 
se (8.8) 
其 中 
a ， T 
Si= zo) (zo rd) ,i=1,2. (8.9) 
(mm) 
对 于 竺 测 样本 zx, 其 判别 函数 定义 为 
Wr) = (rT) H(zD ~ £0), (8.10) 
其 中 a 
至 zx(1) 十 TQ) 
人 V = 9 ; 
其 判别 准则 为 
Ri={z|wr)>0}, R= {rz|w(r) < 0 (8.11) 


再 考虑 两 个 总 体 XI 和 Xs 协 方差 阵 不 同 的 情况 ， 即 


WAFL 21 和 二. 
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对 于 样本 z, 在 协 方差 阵 不 同 的 情况 下 ， 判 别 函 数 为 
wz) = (zz 一 je) 3 (2 — p12) — (so) Di (xp). (8.12) 


与 前 面 讨论 的 情况 相同 , 在 实际 计算 中 总 体 的 均值 与 协 方差 阵 是 未 知 的， 同 
样 需要 用 样本 的 均值 与 样本 协 方 差 阵 来 代 蔡 . 因此 ， 对 于 竺 测 样本 x, 判别 函数 
定义 为 











de) = (C= 0 (70) = (70) (70), (8.13) 
其 中 
0 
3 元- 克 
1 , 
二 Te 1 = 1,2. (8.14) 
其 判别 准则 仍 为 式 (8.11). 
3. R 程序 


将 前 面 介绍 的 算法 编写 成 R 程序 (程序 名 : discriminiant.distance.R). 
discriminiant.distance <- function 

(TrnX1, TrnX2, TstX = NULL, var.equal = FALSE){ 

if (is.null(TstX) == TRUE) TstX <- rbind(TrnX1,TrnX2) 

if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 

else if (is.matrix(TstX) != TRUE) 

TstX <- as.matrix(TstX) 
if (is.matrix(TrnX1) != TRUE) TrnXi1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) != TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 

blong <- matrix(rep(0, nx), nrow=1, byrow=TRUE, 
dimnames=list("blong", 1:nx)) 

mul <- colMeans (TrnX1); mu2 <- colMeans (TrnX2) 


if (var.equal == TRUE || var.equal == T)+ 
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S <- var(rbind(TrnX1,TrnX2)) 
Ww <- mahalanobis(TstX, mu2, S) 
- mahalanobis(TstX, mul, S) 


} 
elset 
S1 < -var(TrnX1); S2 <- var(TrnX2) 
Ww <- mahalanobis(TstX，mu2，S2) 
- mahalanobis(TstX，mul，S1) 
} 


for (i in 1:nx){ 
if (w[i] > 0) 
blong[i] <- 1 
else 
blong[i] <- 2 
} 
blong 
} 


在 程序 中 ， 输 入 变量 TrnX1 、 TrnX2 表示 Xi 类 、 Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 ， 或 矩阵 (样本 按 行 输入 ), 输入 变量 TstX 是 待 测 样本 ， 其 输入 格式 是 
数据 框 ， 或 矩阵 (样本 按 行 输入 ),， 或 向 量 (一 个 待 测 样本 )， 如 果 不 输入 TstX( 缺 
省 值 ), 则 待 测 样本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 代 情况 . 输入 变量 
var .equal 是 逻辑 变量 ， var .equal=TRUE 表示 两 个 总 体 的 协 方差 阵 相 同 ， 否则 
( 缺 省 值 ) 为 不 同 . 函数 的 输出 是 由 “1” 和 “2” 构 成 的 的 一 维和 矩阵 ，“1” 表 示 待 
测 样 本 属于 Xi 类 ，“2” 表 示 待 测 样本 属于 X2 类 . 

在 上 述 程序 中 ， 用 到 Mahalanobis 距离 函数 mahalanobis(), 该 函数 的 使 用 
格式 为 

mahalanobis(x, center, cov, inverted=FALSE, ...) 

其 中 x 是 由 样本 数据 构成 的 向 量 或 窍 阵 (2 维 ), center 为 样本 中 心 ， cov 为 样 
本 的 协 方差 阵 ， 其 公式 为 


Dm = Dt) 


4. 判别 实例 


8.1 判别 分 析 
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例 8.1 在 研究 砂 基 液 化 问题 中 , 选 了 七 个 因子 . 今 从 已 液化 和 未 液化 的 地 层 中 分 
别 拍 了 12 个 和 23 个 样本 ， 数 据 列 在 表 8.1 中 ， 其 中 了 类 表示 已 液化 类 ， 
表示 未 液化 类 ， 试 建立 距离 判别 的 判别 准则 ， 并 按 判 别 准则 对 原 35 个 样本 进行 
回报 ( 即 按 判 别 准则 进行 分 类 )， 分 析 误 判 情况 . 


I 
I 
I 
I 
I 
I 
I 
I 
I 
I 


和 
jj 


表 8.1: 原始 分 类 数据 





180 
45 
75 
75 
75 
15 
30 
30 
30 
70 
70 
30 


1 类 
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表 8.1( 续 ): 原始 分 类 数据 


编号 or 
23 30 
24 30 
25 18 
26 75 
27 75 
28 40 
29 40 
30 180 
31 180 
32 180 
33 180 
34 45 
35 45 





解 : 输入 数据 ， 调 用 函数 discriminiant .distance() 进行 判别 分别 考虑 
两 总 体 协 方差 阵 相 同和 协 方差 阵 不 同 的 情况 . 


> classX1i<-data.frame( 

xl=c(6.60， 6.60, 6.10,， 6.10, 8.40， 7.2， 8.40， 7.50， 
7.50， 8.30， 7.80， 7.80) ， 

Xx2=c(39.00,39.00, 47.00, 47.00, 32.00,， 6.0，113.00，52.00， 
52.00,113.00,172.00,172.00) ， 

x3=c(1.00, 1.00， 1.00，1.00， 2.00， 1.0， 3.50， 1.00， 
3.50， 0.00， 1.00， 1.50) ， 

x4=c(6.00, 6.00，6.00，6.00，7.50， 7.0， 6.00， 6.00， 
7.50， 7.50， 3.50， 3.00) ， 

x5=c(6.00, 12.00, 6.00，12.00，19.00，28.0， 18.00，12.00， 
6.00，35.00，14.00，15.00) ， 

x6=c(0.12, 0.12, 0.08，0.08， 0.35， 0.3， 0.15,， 0.16， 
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0.16, 0.12， 0.21， 0.21) ， 
x7=c(20.00,20.00,，12.00,，12.00, 75.00, 30.0,， 75.00，40.00， 
40.00,180.00，45.00，45.00) 
) 


> classX2<-data.frame(l 


xl=c(8.40， 8.40， 8.40， 6.3，7.00， 7.00， 7.00， 8.30， 
8.30， 225 7.2, 7.2, 5.50, 8.40， 8.40， 7.50， 
7.50， 8.30， 8.30，8.30，8.30， 7.80， 7.80) ， 

XxX2=c(32.0 ,32.00，32.00，11.0，8.00， 8.00， 8.00,161.00， 

161.0， 6.0， 6.0， 6.0，6.00,113.00,113.00，52.00， 


52.00，97.00，97.00,89.00,56.00,172.00,283.00) ， 


x3=c(1.00, 2.00， 2.50， 4.5，4.50， 6.00， 1.50， 1.50， 
0.50， 3.5， 1.0， 1.0，2.50， 3.50， 3.50， 1.00， 
1.00， 0.00， 2.50，0.00，1.50， 1.00， 1.00) ， 

x4=c(5.00, 9.00， 4.00， 7.5, 4.50, 7.50， 6.00， 4.00， 
2.50， 4.0， 3.0，6.0，3.00， 4.50， 4.50， 6.00， 
7.50， 6.00， 6.00，6.00，6.00， 3.50， 4.50) ， 

x5=c(4.00, 10.00, 10.00, 3.0，9.00， 4.00， 1.00， 4.00， 
1.00， 12.0， 3.0， 5.0，7.00，6.00， 8.00， 6.00， 
8.00， 5.00， 5.00,10.00,13.00， 6.00， 6.00) ， 

x6=c(0.35, 0.35， 0.35, 0.2, 0.25, 0.25， 0.25, 0.08， 
0.08， 0.30， 0.3，0.3，0.18，0.15， 0.15， 0.16， 
0.16， 0.15, 0.15, 0.16, 0.25, 0.21, 0.18) ， 


Xx7=c(75.00,75.00，75.00，15.0,30.00，30.00，30.00，70.00， 
70.00，30.0， 30.0，30.0,18.00，75.00，75.00，40.00， 
40.00,180.00,180.00,180.00,180.00,45.00,45.00) 

) 
> source("discriminiant.distance.R'") 
> discriminiant.distance(classX1, classX2, var.equal=TRUE) 
1234567891011 12 13 14 15 16 17 18 19 20 21 22 23 
blong 1 1 1111112 1 1 1 2 2 2 2 2 2 2 2 2 2 2 
24 25 26 27 28 29 30 31 32 33 34 35 
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blong 2 2 2 2 1 1 2 2 2 2 2 2 
> discriminiant.distance(classX1, classX2) 
12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 
blong 1 1 1111112 1 1 1 2 2 2 2 2 2 2 2 2 2 2 
24 25 26 27 28 29 30 31 32 33 34 35 
blong 2 2 2 2 2 2 2 2 2 2 2 2 
在 认为 两 总 体 协 方差 阵 相同 的 情况 下 ,将 训练 样本 回 代 进行 判别 ， 有 三 个 点 
判 错 ， 分 别 是 第 9 号 样本 、 第 28 号 样本 和 第 29 号 样本 . 
在 认为 两 总 体 协 方差 阵 不 同 的 情况 下 ,将 训练 样本 回 代 进 行 判 别 ， 只 有 一 个 
点 判 错 ， 是 第 9 号 样本 . 
5. 多 分 类 问题 的 距离 判别 
对 于 距离 判别 ,很 容易 将 两 分 类 判别 方法 推广 到 多 分 类 问题 . 事实 上 ， 距 离 
判别 的 本 质 就 是 计算 Mahalanobis 距离 ， 待 测 样 本 路 哪个 总 体 的 距离 近 ， 就 认为 
它 属于 哪 一 类 . 
假设 样本 共用 类 ， 分别 是 Xi X2， ,Xi. 若 认 为 这 大 类 总 体 的 方差 是 相 
同 的 ， 即 





pe 

则 用 全 部 样本 计算 样本 方差 作为 总 体 方差 2 的 估计 值 . 车 认为 类 总 体 的 方 

差 不 相 同 ， 则 用 各 自 的 样本 计算 样本 方差 5) 作为 总 体 方差 2i 的 估计 值 . 
相应 的 判别 准则 为 








Ri= {zx |d(z, Xi) = Wid, dz, X7)}, Re 


其 中 d(x,X;) 是 由 式 (8.2) 定义 样本 z 与 总 体 Xi 的 Mahalanobis 距离 . 知 认 为 
方差 相同 时 ， 式 (8.2) 中 的 2 由 估计 值 5 代替 ， 若 认为 方差 不 同时 ， 式 (8.2) 中 
的 习 由 估计 值 5 代替 . 

用 上 述 方法 编写 成 R 程序 (程序 名 : distinguish.distance.R). 
distinguish.distance <- function 

(TrnX, TrnG, TstX = NULL, var.equal = FALSE){ 

if ( is.factor(TrnG) == FALSE){ 








mx <- nrow(TrnX); mg <- nrow(TrnG) 
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TrnX <- rbind(TrnX, TrnG) 
TrnG <- factor(rep(1:2, c(mx, mg))) 
} 
if (is.null(TstX) == TRUE) TstX <- TrnxX 
if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 
else if (is.matrix(TstX) != TRUE) 
TstX <- as.matrix(TstX) 
if (is.matrix(TrnX) != TRUE) TrnX <- as.matrix(TrnX) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, 
dimnames=list("blong", 1:nx)) 

& <- length(levels (TrnG)) 
mu <- matrix(0, nrow=g, ncol=ncol(TrnX)) 
for (i in 1:g) 

mul[i,] <- colMeans (TrnX[TrnG==i,|]) 
D < -matrix(0, nrow=g, ncol=nx) 
if (var.equal == TRUE || var.equal == T){ 

for (i in 1:g) 

D[i,] <- mahalanobis(TstX, mul[i,], var(TrnX)) 

} 
elset 

for (i in 1:g) 

D[i,] <- mahalanobis(TstX, mul[i,], var(TrnX[TrnG==i, |)) 

} 
for (j in 1:nx){ 

dmin <- Inf 

for (i in 1:g) 

if (D[i,j] < dmin)T{ 
dmin <- D[i,j]; blong[j] <- i 
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blong 
} 


程序 分 别 考 虑 了 总 体 协 方差 阵 相 同和 总 体 协 方差 阵 不 同 的 两 种 情况 . 输入 变量 
TrnX 表示 训练 样本 ， 其 输入 格式 是 官 阵 (样本 按 行 输入 ), 或 数据 框 . TrnG 是 因 
子 变量 , 表示 输入 训练 样本 的 分 类 情况 .输入 变量 TstX 是 待 测 样本 , 其 输入 格式 是 
矩阵 (样本 按 行 输入 ), 或 数据 框 , 或 向 量 (一 个 待 测 样本 ). 如 果 不 输入 TstX( 缺 省 
值 ), 则 待 测 样本 为 训练 样本 . 输入 变量 var .equal 是 逻辑 变量 ，var .equal=TRUE 
表示 计算 时 认为 总 体 协 方差 阵 是 相同 的 ;否则 ( 缺 省 值 ) 是 不 同 的 ， 函 数 的 输出 
是 由 数字 构成 的 的 一 维和 矩阵 ， 数 字 表 示 相 应 的 类 . 为 了 与 前 一 个 程序 兼容 ， 对 于 
二 分 类 问题 ， 也 可 以 按照 discriminiant .distance 函数 的 输入 格式 输入 . 
例 8.2 Fisher Iris 数据 Iris 数据 有 四 个 属性 ， 苯 片 的 长 度 、 葛 片 的 宽度 、 花 
办 长 度 和 和 花 闪 的 宽度 ， 数据 共 150 个 样本 ， 分 为 三 类 ， 前 50 个 数据 是 第 一 类 
一 Setosa, 中 间 的 50 个 数据 是 第 二 类 一 Versicolor, 最 后 50 个 数据 是 第 三 类 一 
Virginica. 试用 距离 判别 对 Iris 数据 进行 判别 分 析 . 

解 : R 软件 中 提供 了 Fis 数据 ， 数 据 的 前 四 列 是 数据 的 四 个 属性 ， 第 五 列 标 
明 数 据 属于 哪 一 类 . 
X<-iris[,1:4] 
G<-g1(3,50) 


source("distinguish.distance.R") 





V VvV Vv YYV 


distinguish.distance(X,G) 
12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 
blong 1 1 11111111111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 
blong 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 
blong 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 
64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 
blong 2 2 2 2 2 2 2 3 2 3 2 2 2 2 2 2 2 2 2 2 
84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 
blong 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 
103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 
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blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 

blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 

blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
148 149 150 

blong 3 3 3 


从 计算 结果 可 以 看 出 ， 只 有 第 71 号 样本 、 第 73 号 样本 和 第 84 号 样本 错 
判 ， 回 代 的 判别 正确 率 为 147/150 = 98%. 


8.1.2 ”Bayes 判别 

Bayes 判别 是 假定 对 研究 对 象 已 上 有 一 定 的 认识 ,这 种 认识 常用 先 验 概率 来 描 
述 ， 当 取得 样本 后 ， 就 可 以 用 样本 来 修正 已 有 的 先 验 概率 分 布 ,得 出 后 验 概率 分 
布 ， 现 通过 后 验 概率 分 布 进行 各 种 统计 推断 . 

1. 误 判 概率 与 误 判 损失 

考虑 两 个 总 体 的 判别 情况 . 设 Xi 与 X2 分 别 具 有 概率 密度 函数 亡 (z) 与 
f2(7), 其 中 xz 是 p 维 向 量 . 记 Q 为 x 的 所 有 可 能 观测 值 的 全 体 , 称 为 样本 空间 . 


Ri 为 根据 某 种 规则 要 判 为 Xl 的 那些 化 的 全 体 ， 而 Roo=0—Ri 是 要 判 为 A2 
那些 x 的 全 体 . 某 样本 实际 来 自 Xi, 但 被 判 为 Xs 的 概率 为 





P211) = P{z € RalXi} = a de (8.15) 


来 自 Xz, 但 被 判 为 Xi 的 概率 


P(1|2) = P{z € Ri|X2} = a 户 (Z)d7. (8.16) 


类 似 地 ， 来 自 Xi 也 被 判 为 Xi1, 来 自 X2 也 被 判 为 X2 的 概率 


PRP(LILY. 守 PreRx}= |/ fi(x)dz, (8.17) 


P(2|2) = Plze RXs}= f fo(x)dz, (8.18) 
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又 设 Di pa 分 别 表示 总 体 Xi 和 Xs 的 先 验 概率 ， 且 pl + pa = 1, 于 是 
P{ 正 确 地 判 为 XI} = P{ 来 自 Xi, 被 判 为 X1} 
= P{zEe RIXi}: P(X)= P(1l1):p, (8.19) 
PP{ 误 判 到 Xi1} = P{ 来 自 Xz, 被 判 为 XX1} 
= Ptze Ri|X2}: P(X»)= P(1|2):p2. (8.20) 
类 似 地 有 
P{ 正 确 地 判 为 X2} = P(2|2): po， (8.21) 
P{ 误 判 到 Xs} = P(2|1) :pi. (8.22) 
设 L(1|2) 表示 来 自 X2 被 误 判 为 Xi 引起 的 损失 ， L(2|1) 表示 来 自 Xi 被 
误 判 为 Xs 引起 的 损失 ， 并 规定 L(1|1) = L(2|2|) = 0. 
将 上 述 误 判 概率 与 误 判 损失 结合 起 来 ， 定 义 平均 误 判 损失 (expected cost of 
misclassification, 简 记 为 ECM) 如 下 
ECM(Ri, R») = L(2|1)P(2|1)pi + L(1|2)P(1|2)pz. (8.23) 
一 个 合理 的 选择 是 使 ECM 达到 极 小 . 
2. 两 个 总 体 的 Bayes 判别 
可 以 证 明 ， 极 小 化 平均 误 判 损失 函数 (8.23) 的 划分 区 域 天 和 Rs 为 
mf, 


by “DOLY, pr f(z) ~ Lal) a 。 
因此 ， 可 以 将 式 (8.24) 作为 Bayes 判别 的 判别 准则 , 在 这 个 准则 中 只 需要 计算 ; 
(1) 样本 点 z 的 概率 密度 函数 比 (x)/f2(2); 














(2) 损失 比 L(1|2)/L(2|1); 

(3) 先 验 概率 比 p2/pi. 

下 面 讨论 正 态 分 布 情况 下 ， 样 本 点 x 的 概率 密度 函数 比 的 计算 . 设 X; ~ 
NU i) (i 二 1,2), 分 别 考虑 总 体 协 方差 阵 相同 和 协 方差 阵 不 同 的 情况 . 

首先 考虑 总 体 协 方差 阵 相 同 的 情况 ， 即 1 = 32 = 二. 此 时 Xi; 的 密度 为 


fi(x) = (27) "D1? exp {-ze — 1) 1x — 站 | = (8.25) 
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因此 ， Ri 和 Rz 划分 区 域 (8.24) 等 价 于 


六 在 {z | WI(z) > 8}， 宽 j 汪 {x | W(z) < 8} ， (8.26) 
其 中 
1 Ta—1 1 Ta—1 
W(x) = 可 (Z 一 /2) 2 tz 一 jp) 一 5 一 各 | D> (zt— Hi1) 
= ja-30o+ 同 | om- 网 (27 
6 = ni (8.28) 


不 难 发 现 ， 对 于 正 态 分 布 总 体 的 Bayes 判别 ， 其 判别 规则 (8.26)-(8.28) 可 以 
看 成 距离 判别 的 推广 ， 当 pi = pz, L(1|2) = L(2|1) 时 ， 6 = 0, 就 是 距离 判别 . 


再 考虑 总 体 协 方差 隆 不 同 的 情况 ， 即 Di 并 D， 此 时 忆 和 局 划分 区 域 
(8.24) 等 价 于 
he {z | WI(z) > Bhs 和 二 {x | W(z) < 5} (8.29) 
其 中 
W(s) = 3(— po)"D Wa (8.30) 
， a 


3. R 程序 与 例子 


按照 上 述 方法 写 出 两 总 体 判 别 的 Bayes 判别 程序 (程序 名 :” discriminiant 
.bayes.R). 
discriminiant.bayes <- function 
(TrnX1, TrnX2, rate = 1, TstX = NULL, var.equal = FALSE){ 
if (is.null(TstX) == TRUE) TstX<-rbind(TrnX1,TrnX2) 
if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 
else if (is.matrix(TstX) != TRUE) 
TstX <- as.matrix(TstX) 
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if (is.matrix(TrnX1) != TRUE) TrnX1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) != TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, byrow=TRUE, 
dimnames=list("blong", 1:nx)) 
mul <- colMeans (TrnX1); mu2 <- colMeans (TrnX2) 
if (var.equal == TRUE || var.equal == T)+ 
S <- var(rbind(TrnX1,TrnX2)); beta <- 2*log(rate) 
Ww <- mahalanobis(TstX, mu2, S) 
- mahalanobis (TstX, muil, S) 
} 
elset{ 
S1 <- var(TrnX1); S2 <- var(TrnX2) 
beta <- 2*log(rate) + log(det(S1)/det(S2)) 
W <- mahalanobis(TstX，mu2，S2) 
- mahalanobis(TstX，mul，S2) 


for (i in 1:nx)t 
if (w[i] > beta) 
blong[i] <- 1 
else 
blong[i] <- 2 
} 
blong 
} 
在 程序 中 ,输入 变量 TrnX1 、 TrnX2 表示 Xi 类 、 Xo 类 训练 样本 ， 其 输入 格式 
是 数据 框 , 或 年 阵 (样本 按 行 输 入 ). rate 多 由 哺 , 缺 省 值 为 1. TstX 是 待 测 样 
本 ， 其 输入 格式 是 数据 框 ， 或 矩阵 (样本 按 行 输入 ), 或 向 量 (一 个 待 测 样本 )， 如 
果 不 输 入 TstX( 缺 省 值 ), 则 等 测 样本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 
代 情 况 . 输入 变量 var .equal 是 逻辑 变量 ，var .equalL=TRUE 表示 认为 两 总 体 的 
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协 方差 阵 是 相同 的 ; 否则 ( 缺 省 值 ) 是 不 同 的 .函数 的 输出 是 由 “1” 和 “2” 构 成 
的 的 一 维和 矩阵 ，“1” 表 示 待 测 样本 属于 Xi 类 ，“2” 表 示 待 测 样本 属于 Xs 类 . 
例 8.3 表 8.2 是 某 气 象 站 预报 有 无 春 旱 的 实际 资料 ， 21 与 Za 是 综合 预报 因子 
(气象 含义 略 )， 有 春 旱 的 是 6 个 年 份 的 资料 ， 无 春 早 的 是 8 个 年 份 的 资料 ， 它 
们 的 先 验 概率 分 别 用 6/14 和 8/14 来 估计 ， 并 假设 误 判 损失 相等 .试用 Bayes 
估计 对 数据 进行 分 析 . 


表 8.2: 某 气象 站 有 无 春 旱 的 资料 


站 3 无 春 时 
1 22.1 一 0.7 
2 21.6 一 1.4 
3 22.0 一 0.8 
4 22.8 一 1.6 
5 22.7 一 1.5 
6 215 一 1.0 
7 22.1 —1.2 
8 21.4 一 1.3 





解 : 输入 数据 ( 按 怎 阵 形式 )， 再 调用 函数 discriminiant .bayes() 进行 判 
别 (程序 名 : exam0803 .BR) 
> TrnX1<-matrix( 
c(24.8，24.1，26.6，23.5，25.5，27.4， 
-2.0，-2.4，-3.0，-1.9，-2.1，-3.1)， 
ncol=2) 
> TrnX2<-matrix( 
c(22.1，21.6，22.0，22.8，22.7，21.5，22.1，21.4， 
-0.7, -1.4, -0.8, -1.6, -1.5, -1.0, -1.2，-1.3),，, 
ncol=2) 
> source("discriminiant.bayes.R") 


> discriminiant.bayes(X1, X2, rate=8/6, var.equal=TRUE) 
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12345678910 11 12 13 14 
blong 111211222 2 2 2 2 2 


第 4 号 样本 被 错 判 . 

4. 多 分 类 问题 的 Bayes 判别 

从 上 面 的 计算 过 程 可 知 ，Bayes 判别 的 本 质 就 是 找到 一 种 判别 准则 ,使 得 平 
均 误 判 损失 达到 最 小 ， 也 就 是 相应 的 概率 达到 最 大 . 

假设 样本 共有 k 类 ， 分 别 是 从 1， Xs， vy Xk, 相应 的 先 验 概率 为 D1 Pp2,* Dj 
并 假设 所 有 错 判 损失 是 相同 的 ， 因 此 相应 的 判别 准则 为 








m= {7 | PH) = mas ph)}, i 1 kh (8.32) 
当 达 类 总 体 的 协 方差 阵 相 同 ， 即 21 = 22 = … = 3 二 ,此 时 概率 密度 函 
数 为 
方 (Z) CR Ep {-z —1) D(x -器 ) 7 1,2, ls 
(8.33) 
则 计算 函数 
由 的 三 有 人 区 三 下) 克 三 交 (8.34) 


2 
在 计算 中 ， 式 (8.34) 中 方差 避 用 其 佑 计 值 5 代替 . 
当 上 类 总 体 的 协 方差 阵 不 同 ， 此 时 概率 密度 函数 为 


1 一 
fi(7) 一 (27)- "2D; exp {-z — 3) i(z a 器 } 3 


(8.35) 
则 计算 函数 
dt) = 一 同一 (2 (839 
在 计算 中 ， 式 (8.36) 中 方差 2 用 其 估计 值 5; 代替 . 
判别 准则 (8.32) 等 价 为 
Ri= {rz|adi(z)= min di(Z) 71=1,2,...,k. (8.37) 


1<j<k 


用 上 述 方法 编写 成 及 程序 (程序 名 : ”distinguish.bayes.R). 
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distinguish.bayes <- function 
(TrnX, TrnG, p = rep(1, length(levels(TrnG))), 
TstX = NULL, var.equal = FALSE)T 
if ( is.factor(TrnG) == FALSE){ 
mx <- nrow(TrnX); mg <- nrow(TrnG) 
TrnX <- rbind(TrnX, TrnG) 
TrnG <- factor(rep(1:2, c(mx, mg))) 
} 
if (is.null(TstX) == TRUE) TstX <- TrnX 
if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 
else if (is.matrix(TstX) != TRUE) 
TstX <- as.matrix(TstX) 
if (is.matrix(TrnX) != TRUE) TrnX <- as.matrix(TrnX) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, 
dimnames=list("blong", 1:nx)) 
g <- length(levels(TrnG)) 
mu <- matrix(0, nrow=g, ncol=ncol(TrnX)) 
for (i in 1:g) 
mu[i,] <- colMeans (TrnX[TrnG==i,|]) 
D <- matrix(0, nrow=g, ncol=nx) 
if (var.equal == TRUE || var.equal == T)+ 
for (i in 1:g){ 
d2 <- mahalanobis(TstX, mu[i,], var(TrnX)) 
D[i,] <- d2 - 2*log(p[i]) 


} 
elset 
for (i in 1:g){ 
S <- var(TrnX[TrnG==i,]) 
d2 <- mahalanobis(TstX, mu[i,], S) 


D[i,] <- d2 - 2*log(p[i])-log(det(S)) 


} 
for (j in 1:nx){ 
dmin <- Inf 
for (i in 1:g) 
if (D[i,j] < dmin){ 
dmin <- D[i,j]; blong[j] <- i 


F 
blong 
} 


程序 分 别 考虑 了 总 体 协 方差 阵 相 同和 协 方差 阵 不 同 的 情况 . 输入 变量 Trnx 表示 
训练 样本 ,其 输入 格式 是 矩阵 (样本 按 行 输入 ), 或 数据 框 . TrnG 是 因子 变量 , 表 
示 训 练 样本 的 分 类 情况 . 输入 变量 p 是 先 验 概 率 ， 缺 省 值 均 为 1. 输入 变量 TstX 
是 待 测 样 本 ,其 输入 格式 是 矩阵 (样本 按 行 输入 ), 或 数据 框 , 或 向 量 (一 个 待 测 样 
本 ). 如 果 不 输入 TstX( 缺 省 值 ), 则 待 测 样 本 为 训练 样本 . 输入 变量 var .equal 是 
逻辑 变量 ，var.edqual=TRUE 表示 认为 总 体 协 方差 阵 是 相同 的 ; 否则 ( 缺 省 值 ) 是 
不 同 的 .函数 的 输出 是 由 数字 构成 的 的 一 维 和 矩阵， 数字 表示 相应 的 类 . 为 了 与 前 
面 两 总 体 的 判别 程序 兼容 , 对 于 二 分 类 问题 , 也 可 以 按照 discriminiant .bayes 
函数 的 输入 格式 输入 . 
例 8.4 用 Bayes 判别 对 Fisher Iris 数据 进行 分 析 ， 假设 先 验 概 率 是 相同 的 ， 均 
为 1. 考虑 方差 不 同 的 情况 . 
解 : 
X<-iris[,1:4] 
G<-g1(3,50) 


> 
> 
> source("distinguish.bayes.R") 
> 
> 











distinguish.bayes(X,G) 
distinguish.bayes(X,G) 
1234567891011 12 13 14 15 16 17 18 19 20 21 22 
blong 111111111 1 1 1 1 1 1 1 1 1 1 1 1 1 
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23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 
blong 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 
blong 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 
blong 2 2 2 2 2 2 2 2 3 2 3 2 3 2 2 2 2 3 2 
80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 
blong 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 
99 100 101 102 103 104 105 106 107 108 109 110 111 112 
blong 2 2 3 3 3 3 3 3 3 3 3 3 3 3 
113 114 115 116 117 118 119 120 121 122 123 124 125 126 
blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
127 128 129 130 131 132 133 134 135 136 137 138 139 140 
blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
141 142 143 144 145 146 147 148 149 150 
blong 3 3 3 3 3 3 3 3 3 3 


从 计算 结果 可 以 看 出 ， 只 有 第 69 、71 、73 、78 、 84 号 样本 错 判 ， 回 代 的 判 
别 正确 率 为 145/150 = 96.67%. 


8.1.3 ”Fisher 判别 


Fisher ( 费 吹 ) 判别 是 按 类 内 方差 尽量 小 ， 类 间 方 差 尽量 大 的 准则 来 求 判别 
函数 的 ， 在 这 里 仅 讨论 两 个 总 体 的 判别 方法 . 


1. 判别 准则 


设 两 个 总 体 Xi 和 Xi 的 均值 与 协 方差 阵 分 别 为 Wi，Ha 和 1，>z, 对 于 任 给 
一 个 样本 x, 考虑 它 的 判别 函数 


u = ul(z), (8.38) 


并 假设 


S 
人 
| 


Elu(r) ZEXID) vw = E(u(z) | zx € xX,), (8.39) 
9 Var(u(7) | XE X1), oz = Var(u(x) | x € X,). (8.40) 


Rs] 
| 
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Fisher 判别 准则 就 是 要 寻找 判别 函数 u(x), 使 类 内 偏差 平方 和 
Wo =0of+o3 
最 小 ， 而 类 间 偏 差 平方 和 
Bo = (aa 一 十 (ua — wu) 
最 大 ， 其 中 w= su 十 za) 


将 上 面 两 个 要 求 结合 在 一 起 ， Fisher 判别 准则 就是 要 求 本 娄 ulz) 使 得 


(8.41) 

达到 最 大 . 因此， 判别 准则 为 
RB = {x | (x) — | < u(x) — vl}, (8.42) 
Ra = {zx| hu(z) mu > u(r) — wol}. (8.43) 


2. 线性 判别 函数 中 系数 的 确定 


从 理论 上 讲 ，w(z) 可 以 是 任意 函数 ,但 对 于 任意 函数 u(x) 使 式 (8.41) 中 的 
7 达到 最 大 是 很 困难 的 ， 因 此 ， 通 常 取 u(x) 为 线性 函数 ， 即 令 





u(Z) = oz = A171 十 aa72 十:…: 十 apZp， (8.44) 


因此 ， 问 题 就 转化 为 求 u(7) 的 系数 a, 使 得 目标 函数 达到 最 大 . 

eR ee he 
要 用 样本 均值 与 协 方差 阵 来 代替 . 设 2 站 ,x9),… ,zx 名 是 来 自 总 体 Xi 的 ni 个 样 
2 ds 
和 os 的 估计 ， 


= azDO， i= 1,2, (8.45) 


= al7, (8.46) 
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a) 
_ 1 > (2 20) (10 0) 上 
ni—1 天 i 
So, jl (8.47) 
其 中 
Nn 二 N+ ny, 
35 > (oP -20) (2 -2200), a ee 


因此 ， 将 类 内 偏差 的 平方 Wi 与 类 间 偏 差 平 方 和 Bo 改 为 组 内 离 差 平方 和 Wo 与 
组 间 离 偏差 的 平方 和 Bo, 即 


2 





Wo = >》_ (ni—1)6?=ar (5+ S52)a=aTSa, (8.49) 
+=1 
2 2 wy pe TT 
Bo = DO_ nl 一 0) =ar = ns (本 一 7) (2 -7) | Q 
2 三 二 2=1 
= or (dd (8.50) 
其 中 3= S14 So,n= 沿 +m,d= (2 本 一 2). 因此, 求 1 一 外 最 大 等 价 
0 
于 求 
aT (dd’)a 
alSa 








最 大 .这 个 解 是 不 唯一 的 ， 因 为 对 任意 的 a 承 0, 它 的 任意 非 零 倍 均 保持 其 值 不 
变 . 不 失 一 般 性 ， 将 求 最 大 问题 转化 为 约束 优化 问题 


max a’ (dd )a, (8.51) 
st. a Sa=1. (8.52) 


由 约束 问题 的 一 阶 必要 条 件 得 到 


a= 5-1d. (8.53) 
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3. 确定 判别 函数 
对 于 一 个 新 样本 zx, 现 要 确定 x 属于 哪 一 类 ， 为 方便 起 见 ， 不 妨 设 页 < 琵 . 
因此 由 判别 准则 (8.42), 当 w(x) < 石 时 ， 则 判 ze Xi. 当 w(x) > 五 时 ， 则 判 
Z € Xo. 那么 , 当 硬 < w(x) < 丈 时 ，7z 属于 哪 一 总 体 呢 ? 应当 找 五, 码 的 均值 
Ti1 


全 722_ 
v= 一 VU1 十 一 2， 
Nn Nn 


当 w(xz) < 雍 时 ， 则 判 x € Xi; 否则 判 ZE Xz. 





由 
ut) 一 五 = wo 一 (P+ ms) = oz (& = 0 70) 
= aT(x-7)=d5-1(r -7), (8.54) 
其 中 
7 = > 2 
7 = QD + T= > 
由 上 式 可 知 ，Z 就 是 样本 均值 ， 因 此 ， 构 造 判 别 函 数 
wr) = qd 57!(r — 7), (8.55) 

此 时 ， 判 别 准则 (8.42)-(8.43) 等 价 为 

Ri={r| wz) <0}, Ro= {zr|wr) >0}. (8.56) 


4. RR 程序 与 例子 
根据 前 面 所 述 方 法 ,编写 相应 的 R 程序 (程序 名 : discriminiant .fisher.R) 


discriminiant.fisher <- function(TrnX1, TrnX2, TstX = NULL){ 


if (is.null(TstX) == TRUE) TstX <- rbind(TrnX1,TrnX2) 


if (is.vector(TstX) == TRUE) 
else if (is.matrix(TstX) != TRUE) 


TstX <- t(as.matrix(TstX)) 
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TstX <- as.matrix(TstX) 
if (is.matrix(TrnX1) != TRUE) TrnX1i <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) != TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, byrow=TRUE, 
dimnames=list("blong", 1:nx)) 
ni <- nrow(TrnX1); n2 <- nrow(TrnX2) 
mul <- colMeans (TrnX1); mu2 <- colMeans (TrnX2) 
S <- (ni-1)*var(TrnX1) + (n2-1)*var (TrnX2) 
mu <- ni/(ni+n2)*mul + n2/(ni+n2)*mu2 
W <- (TstX-rep(1,nx) ho mu) %*% solve(S, mu2-mu1); 
for (i in 1:nx)t 
if (w[i] <= 0) 
blong[i] <- 1 
else 
blong[i] <- 2 
} 
blong 
} 


在 程序 中 ， 输 入 变量 TrnX1 、 TrnX2 表示 Xi 类 、 Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 ， 或 窍 阵 (样本 按 行 输入 ). TstX 是 待 测 样本 ， 其 输入 格式 是 数据 框 ， 或 
矩阵 (样本 按 行 输入 ), 或 向量 (一 个 待 测 样本 )， 如 果 不 输入 TstX( 缺 省 值 ), 则 待 
测 样 本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 代 情况 . 函数 的 输出 是 由 “1” 
和 “2” 构 成 的 的 一 维 怎 阵 ，“1” 表 示 待 测 样本 属于 Xi 类 ，“2” 表 示 待 测 样 本 
属于 Xs。 类 . 

例 8.5 用 Fisher 判别 解 例 8.1. 

解 : 输入 数据 ( 见 程序 exam0801.R), 调用 函数 disgcriminiant .fisher(). 


> source("discriminiant.fisher.R") 
> discriminiant.fisher(classX1, classX2) 


1234567891011 12 13 14 15 16 17 18 19 20 21 22 
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blong 111111111 1 1 1 2 2 2 2 2 2 2 2 2 2 
23 24 25 26 27 28 29 30 31 32 33 34 35 
blong 2 2 2 2 2 1 1 2 2 2 2 2 2 


将 训练 样本 回 代 进行 判别 ， 有 两 个 点 判 错 ， 分 别 是 第 28, 29 号 样本 . 
对 于 多 类 的 Fisher 判别 ， 甚 基本 原理 是 相同 的 ， 这 里 就 不 介绍 了 . 


8.2 ” 聚 类 分 析 


聚 类 分 析 (cluster analysis) 是 一 类 将 数据 所 研究 对 象 进行 分 类 的 统计 方法 . 
这 一 类 方法 的 共同 特点 是 : 事先 不 知道 类 别 的 个 数 与 结构 ; 据 以 进行 分 析 的 数据 
是 对 象 之 间 的 相似 性 (similarity) 或 相 异 性 (dissimilarity) 的 数据 ， 将 这 些 相似 
( 相 蜡 ) 性 数据 看 成 是 对 象 之 间 的 “距离 ”远近 的 一 种 度量 ， 将 距离 近 的 对 象 归 
入 一 类 ， 不 同类 之 间 的 对 象 距 离 较 远 ， 这 就 是 聚 类 分 析 方 法 的 共同 思路 ， 

聚 类 分 析 根 据 分 类 对 象 不 同 分 为 Q 型 聚 类 分 析 和 R 型 聚 类 分 析 .， Q 型 聚 
类 分 析 是 指 对 样本 进行 聚 类 ， R 型 聚 类 分 析 是 指 对 变量 进行 聚 类 分 析 . 








8.2.1 ”距离 和 相似 系数 


聚 类 分 析 是 研究 对 样本 或 变量 的 聚 类 ， 在 进行 聚 类 时 ， 可 使 用 的 方法 有 很 
多 ， 而 这 些 方法 的 选择 往往 与 变量 的 类 型 是 有 关系 的 ， 由 于 数据 的 来 源 及 测量 方 
法 的 不 同 ， 变 量 大 致 可 以 分 为 两 类 

(1) 定量 变量 . 也 就 是 通常 所 说 的 连续 量 ， 如 长 度 、 重 量 、 产 量 、 人 口 、 速 度 
和 温度 等 ， 它 们 是 由 测量 或 计数 、 统 计 所 得 到 的 量 ， 这 些 变 量具 有 数值 特征 ， 称 
为 定量 变量 . 

(2) 定性 变量 ,这些 量 并 非 真有 数量 上 的 变化 ， 而 只 有 性 质 上 的 差异 .这 些 
量 还 可 以 分 为 两 种 ， 一 种 是 有 序 变 量 ， 它 没有 数量 关系 ， 只 有 次 序 关系 ， 如 某 种 
产品 分 为 一 等 品 、 二 等 品 、 三 等 品 等 ,矿石 的 质量 分 为 贫 矿 和 富矿 ， 男 一 种 是 名 
义 变量 ， 这 种 变量 即 无 等 级 关系 ， 也 无 数量 关系 ， 如 天 气 ( 阴 、 晴 ), 性 别 ( 男 、 
女 ) 、 职 业 (工人 、 农 民 、 教 师 、 干 部 ) 和 产品 的 型 号 等 . 


1. 距离 
设 25 为 第 i 个 样本 的 第 j 个 指标 ,数据 逢 阵 如 表 8.3 所 示 . 在 表 8.3 中 ， 
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表 8.3: 数据 矩阵 
变 量 
样本 
Xl1 化 2 Vp 
1 Z11 X12 1p 
2 Z21 X22 2p 
nN Tnl Ln2 Tnp 





每 个 样本 有 2 个 变量 ， 故 每 个 样本 可 以 看 成 是 R? 中 的 一 个 点 ， nn 个 样本 就 是 
R? 中 的 n 个 点 . 在 Rr? 中 需要 定义 某 种 距离 ， 第 i 个 样本 与 第 j 个 样本 之 间 的 
距离 记 为 dij, 在 聚 类 过 程 中 ,距离 较 近 的 点 倾向 于 归 为 一 类 ,距离 较 远 的 点 应 归 
属 不 同类 .所 定义 的 距离 一 般 满足 如 下 四 个 条 件 : 

(1) dz > 0, 对 一 切 17; 

(2) di = 0, 当 且 仅 当 第 i 个 样本 与 第 ; 个 样本 的 各 变量 值 相同 ; 

(3) di = dji, 对 一 切 i,;; 

(4) di; < di 十 di 对 一 切 i, j,k. 

对 于 距离 最 常用 的 有 以 下 几 种 : 

(1) 绝对 值 距离 


p 
k=1 


绝对 值 距离 也 称 为 “棋盘 距离 ”或 “城市 街区 ”距离 . 
(2) Euclide 距离 


p 
dij(2) = ,| 》 (zi 一 ZIR)2. (8.58) 
k=1 
这 就 是 通常 意义 下 的 距离 . 
(3) Minkowski 距离 


了 1/g 
中 -| (i = "| ,gq>0. (8.59) 
k=1 
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不 难看 出 绝对 值 距离 和 Euclide 距离 是 Minkowski 距离 的 特例 . 

当 各 变量 的 单位 不 同 或 测量 值 的 范围 相差 很 大 时 , 不 应 直接 采用 Minkowski 
距离 ， 而 应 先 对 各 变量 的 数据 作 标 准 化 处 理 ， 然 后 再 用 标准 化 后 的 数据 进行 计 
算 . 

(4) Chebyshev ( 切 比 雪 夫 ) 距离 








di;(00) = De [vir — Tjg|, (8.60) 


它 是 Minkowski 距离 中 9 一 co 的 情况 
(5) Mahalanobis 距离 


dij(M) = V(X0) — £0) I Hz) — 20)), (8.61) 


其 中 (人 ) 二 (Zi Zi2) 3 Ss 7X0) 二 (zj1, Z72， 和 en 9 为 样本 方差 窍 阵 . 

用 Mahalanobis 距离 的 好 处 是 考虑 到 各 变量 之 间 的 相关 性 , 并 且 与 变量 的 单 
位 无 关 . 但 Mahalanobis 距离 有 一 个 很 大 的 缺陷 ， 就 是 Mahalanobis 距离 公式 中 
的 5 难以 确定 . 

(6) Lance 和 Williams 距离 

[xix 一 [xix — Zix| 
DD Tik 十 Vik ， (8.62) 
其 中 ij > 0， 1 一 1,2,.……,n, 7 二 1 2 … 了. 

以 上 几 种 距离 的 定义 均 要 求 变量 是 定量 变量 , 下 面 介 绍 一 种 定性 变量 距离 的 
定义 方法 . 

(7) 定性 变量 样本 间 的 距离 

在 数量 化 的 理论 中 ,， 常 将 定性 变量 称 为 项 目 , 而 将 定性 变量 的 各 种 不 同 的 取 
“ 值 ” 称 为 类 目 . 性 别 是 项 目 ， 而 男 或 女 是 这 个 项 目的 类 目 . 体形 也 是 一 个 
项 目 ， 而 适中 、 胖 、 瘦 、 壮 等 是 这 个 项 目的 类 目 . 设 样本 




















Z0 = (0:(1,1),0i(1,2),..:,0:(2,71),0:(2,1),6i(2,2),...,0i(2,72), 
,0i(m, 1), 0i(m, 2)， ,6i(m, rm))), 1 = 1,2,..…,n, 
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其 中 为 样本 的 个 数 ，m 为 项 目的 个 数 ，7x 为 第 大 个 项 目的 类 目 数 ，71 十 rz 十 
… 十 Im 一， 

二 1， 第 i 个 样本 中 第 有 个 项 目的 数据 为 第 1 个 类 目 时 ， 

”人 0， 否则 
称 0i(k,1) 为 第 个 项 目 之 1 类 在 第 i 个 样本 中 的 反应 . 

例如 ， 考 虑 项 目 1 为 性 别 ， 其 目 类 为 男 、 女 . 项 目 2 为 外 语种 类 ， 其 目 类 为 

英 、 日 、 德 、 俄 . 项 目 3 为 专业 ， 其 目 类 为 统计 、 会 计 、 人 金融. 项 目 4 为 职业 ， 
其 目 类 为 教师 、 工 程 师 . 现 有 两 个 样本 ， 第 一 个 人 是 男性 ， 所 学 外 语 是 英语 ， 所 
学 专业 是 金融 ， 其 职业 是 工程 师 ， 第 二 个 人 是 女性 ， 所 学 外 语 是 英语 ， 所 学 专业 
是 统计 ， 其 职业 是 教师 . 表 8.4 给 出 相应 的 项 目 、 类 目 和 样本 的 取 值 情况 . 这 里 


表 8.4: EL 0 











W272 2 Dl 

设 有 两 个 样本 zx6), zo), 若 5.(k,1) = 5;(%,1) = 1, 则 称 这 两 个 样本 在 第 个 
项 目的 第 1 类 目 上 1 一 1 配对 ， 若 6h,D) 一 避 (hs) 一 0, 则 称 这 两 个 样本 在 第 
个 项 目的 第 1! 类 目 上 0 一 0 配对 ， 奉 6;(k, 1) 关 6;(k,4), 则 称 这 两 个 样本 在 第 个 
项 目的 第 1 类 目 上 不 配对 . 

记 mi 为 zo) 和 Zo) 在 m 个 项 目 所 有 类 目 中 1 一 1 配对 的 总 数 ，mo 为 0 一 0 
配对 的 总 数 ， ms 为 不 配对 的 总 数 ， 显 然 ， 有 


700 十 701 十 7702 三 也 . 


样本 x(;) 和 Zzo) 之 间 的 距离 可 以 定义 为 











M2 


di; = 一 一 一 一 . 8.63 
4 AA 十 72 ( ) 


对 于 表 8.4 中 的 数据 ， mo == 4, mi 二 1, mz = 6. 因此， 距离 为 diz = 6/7 = 
0.8571429. 
在 RR 软件 中 ，dist() 函数 给 出 了 各 种 距离 的 计算 结果 ， 其 使 用 格式 为 
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dist(x, method = "euclidean'"', 
diag = FALSE, upper = FALSE, p = 2) 
其 中 x 是 样本 构成 的 数据 和 窍 阵 (样本 按 行 输入 ) 或 数据 框 . method 表示 计算 距 
离 的 方法 ， 缺 省 值 为 Euclide 距离 ， 所 定义 的 距离 有 
"euclidean" 一 Euclide 距离 ， 即 按 公 式 (8.58) 计算 . 
"maximum" 一 ” Chebyshev 距离 ， 即 按 公 式 (8.60) 计算 . 
"manhattan" 一 绝对 值 距离 ， 即 按 公 式 (8.57) 计算 . 
"canberra" 一 Lance 距离 事实 上 ， 它 是 Lance 距离 的 扩充 ， 并 不 要 求 
2i1 > 0, 计算 公式 为 





p 
3 ein — Tn (8.64) 
[zix 十 zig| 
e "minkowski" 一 Minkowski 距离 ， 其 中 参数 p 是 Minkowski 距离 的 阶 数 ， 


即 公 式 (8.59) 中 的 4. 
e "binary" 一 定性 变量 的 距离 ， 按 公式 (8.63) 计算 . 

diag 是 逻辑 变量 ， 当 diag = TRUE 时 , 给 出 对 角 线 上 的 距离 upper 是 逮 
辑 变量 ， 当 upper = TRUE 时 ， 给 出 上 三 角 和 矩阵 的 值 ( 缺 省 值 仅 给 出 下 三 角 秆 阵 
的 值 ). 

2. 数据 中 心 化 与 标准 化 变换 

在 作 聚 类 分 析 过 程 中 ， 大 多 数 数据 往往 是 不 能 直接 参与 运算 的 , 需要 先 将 数 
据 作 中 心 化 或 标准 化 处 理 . 

(1) 中 心 化 变换 . 称 








Pi; = Vij — Tj, i= 1,2,.…,n, 7 一 12 ;2D (8.65) 


为 中 心 化 变换 .变换 后 数据 的 均值 为 0, 方差 阵 不 变 . 
(2) 标准 化 变换 ， 称 


r=, 1=1,2,.…,n, } = 1,2,..……,p (8.66) 
37 


为 标准 化 变换 . 变换 后 数据 ， 每 个 变量 的 样本 均值 为 0, 标准 差 为 1, 而 且 标 准 化 
后 的 数据 与 变量 的 量 纲 无 关 . 
在 R 软件 中 ， 可 用 scale() 函数 作 数 据 的 中 心 化 或 标准 化 ， 其 使 用 格式 为 
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scale(x, center = TRUE, scale = TRUE) 
其 中 x 是 样本 构成 的 数据 矩阵 . center 是 逻辑 变量 ， TRUE( 缺 省 值 ) 表示 对 
数据 作 中 心 化 变换 ， FALSE 表示 不 作 变 换 . scale 是 逻辑 变量 ， TRUE( 缺 省 
值 ) 表示 对 数据 作 标 准 化 变换 ， FALSE 表示 不 作 变 换 . 对 应 于 公式 (8.65) 的 计 
算 函 数 为 z* = scale(x，scale = FALSE); 对 应 于 公式 (8.66) 的 计算 函数 为 
2 一 Scale(x). 
(3) 极 差 标准 化 变换 ， 称 
六 Cs /A Ey (8.67) 
为 极 差 标准 化 变换 . 变换 后 数据 , 每 个 变量 的 样本 均值 为 0, 极 差 为 1, 且 |zx;;| < 1， 
在 以 后 的 分 析 计 算 中 可 以 减少 误差 的 产生 ,同时 变换 后 的 数据 也 是 无 量 纲 的 量 . 
在 R 软件 中 ， 可 用 sweep() 函数 作 极 差 标 准 化 变换 ， 其 变换 过 程 如 下 : 
center <- sweep(x, 2, apply(x, 2, mean)) 
R <- apply(x, 2, max) - apply(x,2,min) 
x_star <- sweep(center, 2, R, "/") 
其 中 x 是 样本 构成 的 数据 矩阵 . 第 一 行 是 将 数据 中 心 化 ， 即 式 (8.65). 第 二 行 是 
计算 极 差 Rj,7 = 1,2,…,p. 第 三 行 是 将 中 心 化 后 的 数据 除 以 极 差 ， 得 到 数据 的 
极 差 标准 化 数据 . 
在 上 述 命令 中 用 到 sweep() 函数 ， sweep() 函数 对 数组 或 矩阵 进行 运算 ， 
sweep(x, MARGIN, STATS, FUN="-", ...) 
其 中 x 是 数组 或 矩阵 MARGIN 是 运算 的 区 域 , 对 于 矩阵 来 讲 ， 1 表示 行 ， 2 表 
示 列 . STATS 是 统计 量 ， 如 apply(x，2，mean) 表示 各 列 的 均值 .FUN 表示 画 
数 的 运算 ， 缺 省 值 为 减法 运算 
从 sweep() 函数 的 规则 可 知 ， 如 果 将 命令 中 的 第 三 行 改 为 
x_star <- sweep(center, 2, sd(x), "/") 
得 到 的 就 是 (普通 ) 标准 化 变换 后 的 数据 . 
(4) 极 差 正 规 化 变换 . 称 


Ti 一 ,Wn Thj 
et i=1,2,.…,n, =1,2,...,p (8.68) 
J 
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为 极 差 正规 化 变换 ， 变换 后 数据 0 < zi < 1, 极 差 为 1, 也 是 无 量 纲 的 量 . 
利用 sweep() 函数 ， 可 以 很 容易 得 到 数据 的 极 差 正规 化 变换 ， 其 变换 过 程 
如 下 





center <- sweep(x, 2, apply(x, 2, min)) 
R <- apply(x, 2, max) - apply(x,2,min) 


x_star <- sweep(center, 2, R, "/") 

其 中 x 是 样本 构成 的 数据 窍 阵 . 

3. 相似 系数 

聚 类 分 析 方 法 不 仅 用 来 对 样本 进行 分 类 ,而 且 可 用 来 对 变量 进行 分 类 , 在 对 
变量 进行 分 类 时 ， 常 用 相似 系数 来 度量 变量 之 间 的 相似 程度 . 

设 cz 表示 变量 X; 和 XX; 间 的 相似 系数 ， 一 般 要 求 ; 

(1) ci = 土 ] 当 且 仅 当 Xi = aX; (a A 0); 

(2) |cij| < 1, 对 一 切 67 成 立 ; 

(3) cr = cii 对 一 切 i,7 成 立 . 
lcij| 越 接 近 1, 则 表示 X; 和 X; 的 关系 越 密切 ， cz 越 接近 0, 则 两 者 关系 越 焉 
远 . 

(1) 夹 角 余 弦 . 变量 X; 的 n 次 观测 值 为 (zt Xz,…, Ym), 则 Xi 与 Xj; 的 夹 
角 余 弦 称 为 两 向 量 的 相似 系数 ， 记 为 ci(1), 即 











Nn 
> NA 
k=1 


Ns 
k=1 k=1 


当 Xi 和 Xi 平行 时 ， cij(1) = 土 1) 说 明 这 两 向 量 完全 相似 ， 当 X 和 Xi 正 交 
时 ， cij(1) = 0, 说 明 这 两 向 量 不 相关 . 

在 R 软件 中 ， 可 用 scale() 也 数 完成 两 向 量 夹 角 余弦 的 计算 ， 其 计算 公式 
如 下 : 


1,7 = 1,2,.…:,p. (8.69) 








y <- scale(x, center = F, scale = T)/sqrt(nrow(x)-1) 


C <- t(y) %*h 了 
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其 中 x 是 样本 构成 的 数据 矩阵 ，c 是 由 式 (8.69) 计算 相 出 的 似 系数 构成 的 矩阵 
注意 ， 由 于 标准 化 变换 除 的 是 S,， 而 公式 (8.69) 需要 除 ,| DE 相差 Vi 一 T 
洗 ， 故 计算 公式 中 还 需 再 除 上 VT 一 T 


(2) 相关 系数 . 相关 系数 就 是 对 数据 作 标 准 化 处 理 后 的 夹 角 余 粥 .也 就 是 变 
量 X; 和 变量 X; 的 相关 系数 vi, 这 里 记 为 ci;(2), 即 


Ms 


(Thi — Ti) (Tkj — Tj) 
cij(2) 三 = 全 1,7 = 1,2,.……,p. (8.70) 


nN 
(ZR TB) 2 (DR 
k=1 


Ms 


™ 
册 


当 cij(2) = 士 1 时 表示 两 变量 线性 相关 . 

在 RR 软件 中 ， ci;(2) 的 计算 更 加 方便 ， 即 样本 的 相关 秆 阵 ， 

C <- cor(x) 

其 中 x 是 样本 构成 的 数据 窍 阵 . 

变量 之 间 篆 借助 于 相似 系数 来 定义 距离 ， 如 令 

二 (8.71) 

有 时 也 用 相似 系数 来 度量 样本 间 的 相似 程度 . 
8.2.2 ”系统 聚 类 法 


系统 聚 类 方法 (hierarchical clustering method) 是 聚 类 分 析 诸 方法 中 用 得 最 
多 的 一 种 ， 其 基本 思想 是 : 开始 将 n 个 样本 各 自作 为 一 类 ,并 规定 样本 之 间 的 距 
离 和 类 与 类 之 间 的 距离 ， 然 后 将 距离 最 近 的 两 类 合并 成 一 个 新 类 ,计算 新 类 与 其 
他 类 的 距离 ， 重 复 进行 两 个 最 近 类 的 合并 ， 每 次 减少 一 类 ， 直 至 所 有 的 样本 合并 
为 一 类 . 

以 下 用 di 表示 第 i 个 样本 与 第 7 个 样本 的 距离 ，G1, Go,.… 表示 类 ， DkL 
表示 Gk 与 GL 的 距离 . 在 下 面 所 介绍 的 系统 聚 类 法 中 ， 所 有 的 方法 一 开始 每 个 
样本 自 成 一 类 ， 类 与 类 之 间 的 距离 与 样本 之 间 的 距离 相同 ， 即 Dkr = dxz, 所 以 
最 初 的 距离 矩阵 全 部 相同 ， 记 为 Po = (dij). 


1. 最 短 距 离 法 
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定义 类 与 类 之 间 的 距离 为 两 类 最 近 样 本 间 的 距离 ， 即 


iEGK,JEGL 
称 这 种 系统 聚 类 法 为 最 短 距离 法 (single linkage method). 
当 某 步 又 类 Gk 和 Gz 合并 为 Gw 后 ， 按 最 短 距 离 法 计算 新 类 Gh 与 其 他 
类 Gj 的 类 间距 离 ， 其 递 推 公式 为 


min di; = min min dij, min di; 
iEGM,jEG iEGK,jEGJ iEGL,JEGJ 


一 min{ Dgr, Dry}. (8.73) 


Dax; = 


2. 最 长 距离 法 
定义 类 与 类 之 间 的 距离 为 两 类 最 远 样本 间 的 距离 ， 即 


max 
iEGK,IJEGL 
称 这 种 系统 聚 类 法 为 最 长 距离 法 (complete linkage method). 

当 某 步 又 类 Gk 和 GL 合并 为 Gm 后 ， 则 Ga 与 任 一 类 GJ 距离 为 


Dm 二 二 max{ Dkr, DrJ}. (8.75) 


3. 中 间距 离 法 
类 与 类 之 间 的 距离 即 不 取 两 类 最 近 样 本 的 距离 ， 也 不 取 两 类 最 远 样 本 的 距 
离 ， 而 是 取 介 于 两 者 中 间 的 距离 ， 称 为 中 间距 离 法 (median method). 
设 某 一 步 将 Gk 和 GL 合并 为 Gu, 对 于 任 一 类 Gj, 考虑 由 Dkr, Dry 和 
Dkj 为 边 长 组 成 的 三 角形 (如 图 8.2 所 示 ), 取 Dkz 边 的 中 线 作 为 Dyy. 由 初等 
平面 几何 可 知 ， Dx 的 计算 公式 为 
1 1 


1 
Di = 3DEKy 十 5DL 一 ITDxr (8.76) 


这 就 是 中 间距 离 法 的 递 推 公 式 . 
中 间 法 可 推广 为 更 一 般 的 情形 ， 将 式 (8.76) 中 三 项 的 系数 依赖 于 某 个 参数 
PD, 即 


| 1 
De (32 二 3 + BDfL, (8.77) 
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GK 


已 KJ 人 
DMJ 


GJ GL 
DLJ 





图 8.2: 中 间距 离 法 的 几何 表示 


其 中 0 < 1, 这 种 方法 称 为 可 变法 . 当 6 = 0 时 ， 递 推 公式 变 为 
I 


1/1 
万 条 = > (Bo% 十 3 (8.78) 


称 此 方法 为 Mcquitty 相似 分 析 法 . 
4. 类 平均 法 
类 平均 法 (average linkage method) 有 两 种 定义 ， 一 种 定义 方法 是 把 类 与 类 
之 间 的 距离 定义 为 所 有 样本 对 之 间 的 平均 距离 ， 即 定义 Gk 和 Gz 之 间 的 距离 为 
pe 本 (8.79) 


NkKN 
K ee 


其 中 nk 和 nz 分别 为 类 Gk 和 Gz 的 样本 个 数 ， di 为 Gk 中 样本 i 与 GL 中 
的 样本 7 之 间 的 距离 .容易 得 到 它 的 一 个 递 推 公式 : 
1 

















DMy = dij 

M 7 jeGM jeG 
1 

二 二 > dij 十 > dij 
MJ iEGK,IEGJ iEGL,IEGJ 
NK NL 

= DD (8.80) 
NM NM 


男 一 种 定义 方法 是 定义 类 与 类 之 间 的 平方 距离 为 样本 对 之 间 平 方 距离 的 平 
均值 ， 即 
Dd (8.81) 


NKN 
K ee 


NM NM 
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类 平均 法 较 好 在 利用 了 所 有 样本 之 间 的 信息 ,在 很 多 情况 下 , 它 被 认为 是 一 
种 较 好 的 系统 聚 类 法 . 
在 递 推 公式 (8.82) 中 ，Diz 的 影响 没有 被 反映 出 来 ， 为 此 可 将 该 递 推 公式 
进一步 推广 为 
Di = 0 (E+ ED ) + 8Dk (8.83) 


其 中 6 < 1, 称 这 种 系统 聚 类 法 为 可 变 类 平均 法 . 
5. 重心 法 


类 与 类 之 间 的 距离 定义 为 它们 的 重心 (均值 ) 之 间 的 Euclide 距离 . 设 Gk 和 
GL 的 重心 分 别 为 Tk 和 ZL, 则 Gk 与 Gz 之 间 的 平方 距离 为 





DI = da = (TE mE) (PT). (8.84) 


TKZXL 


这 种 系统 聚 类 方法 称 为 重心 法 (centroid hierarchical method). 它 的 递 推 公式 为 


We (8.85) 





n n 

2 _ kn2 L 门 2 

Diu = 一 Dzry+ 一 DT 一 一 
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重心 法 在 处 理 异 常 值 方面 比 其 他 系统 类 法 更 稳健 , 但 是 在 别 的 方面 一 般 不 如 
类 平均 法 或 离 差 平 方 和 法 的 效果 好 . 

6. 离 差 平方 和 法 (Ward 方法 ) 

离 平 方 和 法 是 Ward(1936) 提出 的 , 也 称 为 Ward 法 . 它 基 于 方差 分 析 思 想 ， 
如 果 类 分 得 正确 , 则 同类 样本 之 间 的 离 差 平方 和 应 当 较 小 , 不 同类 样本 之 间 的 离 
差 平方 和 应 当 较 大 . 

设 类 Gk 和 Gz 合并 成 新 的 类 Gm, 则 Gk, Gr, Gm 的 离 差 平方 和 分 别 是 

Wk = > (x6) — Zk) (re) — Tk), 


i€EGK 


Wr = >》(zg — Er) (z0) — Tr), 


Wx = >， (ZO) 一 FM) (v0 三 TM). 
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它们 反映 了 各 自 类 内 样本 的 分 散 程度 . 如 Gk 和 Gz 这 两 类 相距 较 近 ， 则 合并 后 
所 增加 的 离 差 平方 和 Ww 一 Wx 一 Wi 应 较 小 ， 否则 ， 应 较 大 . 于 是 定义 Gk 和 
GL 之 间 的 平方 距离 为 

Dj = Wa — We — Wi. (8.86) 


这 种 系统 聚 类 法 称 为 离 差 平方 和 法 或 Ward 方法 (Ward’s minimum variance 
method). 它 的 递 推 公式 为 

















各 性 十 nL NJ 
AR ye i 8.87 
ME a a (8.87) 
Gx 和 GL 之 间 的 平方 距离 也 可 以 写成 
De (8.88) 
NM 





可 见 ， 这 个 距离 与 由 式 (8.84) 给 出 的 重心 法 的 距离 只 相差 一 个 常数 倍 . 重心 法 的 
类 间距 与 两 类 的 样本 数 无 关 , 而 离 差 平 方 和 法 的 类 间距 与 两 类 的 样本 数 有 和 较 大 的 
关系 ， 两 个 大 类 倾向 于 有 较 大 的 距离 ， 因 而 不 易 合 并 ， 这 更 符合 对 聚 类 的 实际 要 
求 . 离 差 平方 和 法 在 许多 场合 下 优 于 重心 法 ， 是 比较 好 的 一 种 系统 聚 类 法 ， 但 它 
对 异常 值 很 敏感 . 

7. 系统 聚 类 的 R 软件 计算 

在 R 软件 中 ，hclust() 函数 提供 了 系统 聚 类 的 计算 ， plot() 函数 可 画 出 
系统 聚 类 的 树 形 图 (或 称 为 谱系 图 ， dendrogram). 

hclust() 函数 的 使 用 格式 为 

hclust(d, method = "complete", members=NULL) 

其 中 d 是 由 "dist" 构成 的 结构 . method 是 系统 聚 类 的 方法 ( 缺 省 是 最 长 距离 
法 ), 其 参数 有 


e "single" 一 最 短 距离 法 ， 即 公式 (8.72)-(8.73). 
。"complete" 一 最 长 距离 法 ， 即 公式 (8.74)-(8.75). 
e "median" 一 中 间距 离 法 ， 即 公式 (8.76). 

e "mcquitty"” 一 Mcquitty 相似 法 ， 即 公式 (8.78). 


"average" 一 类 平均 法 ， 这 里 采用 的 是 公式 (8.79)-(8.80). 
"centroid" 一 重心 法 ， 即 公式 (8.84)-(8.85). 
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e "ward" 一 离 差 平 方 和 法 ， 即 公式 (8.86)-(8.87). 
members 缺 省 值 为 NULL, 或 与 a 有 相同 变量 长 度 的 向 量 , 具体 使 用 方法 请 见 
在 线 帮 助 . 
plot() 函数 画 出 谱系 图 的 格式 为 
plot(x, labels = NULL, hang = 0.1， 





axes = TRUE, frame.plot = FALSE, ann = TRUE， 
main = "Cluster Dendrogram", 
sub = NULL, xlab = NULL, ylab = "Height", ...) 
其 中 x 是 由 hclust() 函数 生成 的 对 象 . hang 是 表明 谱系 图 中 各 类 所 在 的 位 
置 ， 当 hang 取 负 值 时 ， 谱 系 图 中 的 类 从 底部 画 起 ， 其 他 参数 的 意义 请 见 在 线 帮 
助 . 
下 面 通过 一 些 简单 的 例子 来 说 明 系 统 聚 类 方法 ， 以 及 R 函数 的 使 用 方法 . 
例 8.6 设 有 五 个 样本 ， 每 个 样本 只 有 一 个 指标 ,分 别 是 1,2,6,8,11, 样本 间 的 距 
离 选用 Euclide 距离 ， 试 用 最 短 距 离 法 、 最 长 距离 法 等 方法 进行 聚 类 分 析 ， 并 画 
出 相应 的 谱系 图 . 
解 : 用 Euclide 距离 计算 各 样本 点 间 的 距离 ， 用 最 短 距离 法 、 最 长 距离 法 、 
中 间距 离 法 和 Mcquitty 相似 法 进行 聚 类 分 析 ， 并 画 出 四 种 方法 的 谱系 图 ， 而 且 
将 四 个 谱系 图 画 在 一 个 图 上 . 
以 下 是 R 语句 (程序 名 : exam0806 .BR) 
#### 输入 数据 ， 生 成 距离 结构 
x<-c(1,2,6,8,11); dim(x)<-c(5,1); d<-dist(x) 
#### 生成 系统 聚 类 
hci<-hclust(d, "single"); hc2<-hclust(d, "complete") 




















hc3<-hclust(d, "median"); hc4<-hclust(d, "mcquitty") 
#### 绘 出 所 有 树 形 结构 图 ， 并 以 2 x 2 的 形式 绘 在 一 张 图 上 
opar <- par(mfrow = c(2,，2)) 

plot(hci,hang=-1); plot(hc2,hang=-1) 

plot (hc3,hang=-1); plot(hc4,hang=-1) 











par (opar) 
画 出 的 图 形 如 图 8.3 所 示 . 
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图 8.3: 四 种 不 同 距 离 的 谱系 图 


与 绘 谱系 图 有 关 的 函数 还 有 as.dendrogram(), 其 意思 是 将 系统 聚 类 得 到 的 
对 象 强制 为 谱系 图 ， 它 的 使 用 格式 为 
as.dendrogram(object, hang = -1, ...) 
其 中 object 是 由 hclust 得 到 的 对 象 ， 在 此 时 ， plot() 函数 的 用 法 为 
plot(x, type = c('"rectangle", "triangle'"), 
center = FALSE, 


edge.root = is.leaf(x) || !is.null(attr(x,'"edgetext")), 
nodePar = NULL, edgePar = list(), 

leaflab = c("perpendicular", "textlike", "none'"), 

dLeaf = NULL, xlab = "", ylab = "", xaxt = "n", yaxt = "s", 


horiz = FALSE, frame.plot = FALSE, ...) 
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其 中 x 是 由 dendrogram 得 到 的 对 象 ，type 表示 画 谱系 图 的 类 型 ，"rectangle" 
是 矩形 ( 缺 省 值 ), "triangle" 为 三 角形 . horiz 是 逻辑 变量 ， 当 horiz=TRUE 
时 ， 表 示 谱 系 图 水 平 放置 .其 他 参数 见 在 线 帮助 . 
以 下 命令 和 图 形 ( 见 图 8.4) 可 以 帮助 我 们 理解 有 关 参 数 的 意义 . 
dendi<-as.dendrogram(hc1) 





opar <- par(mfrow = c(2, 2),mar = c(4,3,1,2)) 

plot (dend1) 

plot(dend1i, nodePar=list(pch = c(1,NA), cex=0.8, lab.cex=0.8), 
type = "t", center=TRUE) 
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图 8.4: 不 同 参数 下 的 谱系 图 


plot(dend1, edgePar=list(col = 1:2, lty = 2:3), 
dLeaf=1, edge.root = TRUE) 
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plot(dend1，nodePar=list(pch = 2:1, cex=.4*2:1, col=2:3), 
horiz=TRUE) 
par (opar) 
例 8.7 对 305 名 女 中 学 生 测 量 八 个 体型 指标 ， 相 应 的 相关 矩阵 如 表 8.5 所 示 ， 
将 相关 系数 看 成 相似 系数 ， 定 义 距 离 为 


dij = 1 — Ti. 
用 最 长 距离 法 作 系 统 分 析 . 


表 8.5: 各 对 变量 之 间 的 相关 系数 
身高 ”手臂 长 ”上肢 长 下 肢 长 体重 颈 围 胸围 胸 宽 


Ll XL2 3 4 5 6 Y7 TL8 
身高 | 1.000 
手 壁 长 | 0.846 1.000 
上 肢 长 | 0.805 0.881 1.000 
下 肢 长 | 0.859 0.826 ”0.801 1.000 


体重 
颈 转 
胸围 


胸 宽 


0.473 0.376 ”0.380 ”0.486 1.000 

0.398 0.326 “0.319 0.329 0.762 1.000 

0.301 0.277 0.237 0.327 0.730 0.583 1.000 
0.382 0.277 0.345 0.365 0.629 0.577 0.539 1.000 





解 ， 输入 相关 系数 矩阵 ， 在 作 谱 系 图 中 ， 用 到 前 面 讲 过 的 浮 数 hclust()， 
as.dendrogram() 和 plot(). 为 了 使 谱系 图 画 的 更 好 看 ， 还 增加 一 个 自 编 的 函 
数 . 下 面 是 相应 的 及 程序 (程序 名 : ”exam0807.R) 


#### 输入 相关 乱 阵 


X<-c(1.000，0.846，0.805，0.859，0.473，0.398，0.301，0.382， 
0.846，1.000，0.881，0.826，0.376，0.326，0.277，0.277， 
0.805，0.881，1.000，0.801，0.380，0.319，0.237，0.345， 
0.859，0.826，0.801，1.000，0.436，0.329，0.327，0.365， 
0.473，0.376，0.380，0.436，1.000，0.762，0.730，0.629 ， 
0.398，0.326，0.319，0.329，0.762，1.000，0.583，0.577， 
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0.301，0.277，0.237，0.327，0.730，0.583，1.000，0.539 ， 
0.382，0.415，0.345，0.365，0.629，0.577，0.539，1.000) 
names<-c(" 身高 "," 手 怖 长 "," 上 肢 长 "下肢 长 "," 体重 "" 颈 围 "， 
"胸围 "," 胸 宽 ") 
r<-matrix(x, nrow=8, dimnames=list (names, names)) 
#### 作 系 统 聚 类 分 析 ， 
#### 函数 as.dist() 的 作用 是 将 普通 和 矩阵 转化 为 聚 类 分 析 用 的 距离 结构 . 
d<-as.dist(1-r); hc<-hclust(d); dend<-as.dendrogram(hc) 
#4 写 一 段 小 程序 ， 其 目的 是 在 绘图 命令 中 调用 它 ， 使 谱系 图 更 好 看 ， 
np<-list(col=3:2, cex=c(2.0, 0.75), pch= 21:22， 
bg= c("light blue", "pink"), 
lab.cex = 1.0, lab.col = "tomato') 









































addE <- function(n){ 
if(!is.leaf(n)){ 
attr(n,"edgePar")<-list(p.col="plum") 


attr(n,"edgetext'")<-paste(attr(n,'"members"),'"members") 


} 

#### 画 出 谱系 图 . 

de <- dendrapply(dend, addE); plot(de, nodePar= nP) 
所 绘图 形 如 图 8.5 所 示 . 

从 上 面 的 谱系 图 (图 8.5) 容易 看 出 ， 变 量 zz( 手 臂 长 ) 与 23( 上 上肢 长 ) 最 先 合 
并 成 一 类 接 下 来 是 变量 zl( 号 高 ) 与 x4( 下 胶 长 ) 合并 成 一 类 .再 合并 就 是 将 新 
得 到 的 两 类 合并 成 一 类 (可 以 称 为 “长 ”类 ). 后 面 要 合并 的 是 zs( 体 重 ) 与 x3( 贷 
围 ). 再 合并 就 是 将 z7( 胸 围 ) 加 到 新 类 中 ， 再 加 就 是 zg( 胸 宽 ), 最 后 合并 为 一 类 . 


8. 类 个 数 的 确定 


在 聚 类 过 程 中 类 的 个 数 如 何 确定 才 是 适宜 的 呢 ? 这 是 一 个 十 分 困难 的 问题 ， 
至 今 仍 未 找到 令 人 满意 的 方法 , 但 这 又 是 一 个 不 可 回避 的 问题 . 目前 基本 的 方法 
有 三 种 . 
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图 8.5: 八 个 体型 指标 的 谱系 图 


(1) 给 定 一 个 立 值 .通过 观察 谱系 图 ， 给 出 一 个 你 认为 的 阐 值 7, 要 求 类 与 
类 之 间 的 距离 要 大 于 7. 

(2) 观测 样本 的 散 点 图 ， 对 于 二 维 或 三 维 变 量 的 样本 ， 可 以 通过 观测 数据 的 
散 点 图 来 确定 类 的 个 数 . 

(3) 使 用 统计 量 . 通过 一 些 统计 量 来 确定 类 的 个 数 . 

(4) 根据 谱系 图 确定 分 类 个 数 的 准则 . 

Bemirmen (1972) 提出 了 根据 研究 目的 来 确定 适当 的 分 类 方法 ， 并 提出 一 些 
根据 谱系 图 来 分 析 的 准则 : 
准则 A 各 类 重心 的 距离 必须 很 大 ; 
准则 B 确定 的 类 中 ， 各 类 所 包含 的 元 素 都 不 要 太 多 ; 
准则 C 类 的 个 数 必须 符合 实用 目的 ; 
准则 D 阁 采 用 几 种 不 同 的 聚 类 方法 处 理 ， 则 在 各 自 的 聚 类 图 中 应 发 现 相 同 的 


类 . 





在 R 软件 中 ， 与 确定 类 的 个 数 有 关 的 函数 是 rect .hclust() 函数 ， 它 的 本 
质 是 由 给 定 类 的 个 数 或 给 定 阀 值 来 确定 聚 类 的 情况 ， 其 使 用 格式 为 
rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL, 
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border = 2, cluster = NULL) 

其 中 tree 是 由 hclust 生成 的 结构 . k 是 类 的 个 数 . hh 是 谱系 图 中 的 阐 值 ， 要 
求 分 成 的 各 类 的 距离 大 于 h. border 是 数 或 品 量 ， 标 明 算 形 框 的 颜色 . 

对 于 八 个 体型 指标 的 聚 类 分 析 中 ( 见 例 8.7), 将 变量 分 为 三 类 ， 即 = 3, 其 
程序 和 计算 结果 如 下 : 

plclust(hc, hang=-1); re<-rect.hclust(hc, k=3) 

得 到 身高 (zl), 手臂 长 (za), 上 上 肘 长 (x3), 下 肢 长 (z4) 分 为 第 一 类 ， 胸 宽 (zs) 为 
第 二 类 ,体重 (z5), 有 颈 围 (ze), 胸围 (x7) 分 为 第 三 类 . 其 图 形 如 图 8.6 所 示 . 





| 
S 





LO 
局 














0.3 
| 








Height 

















34+iS x6 > 


Ef.B x1 


0.1 
| 

| 

FiO«sn x3 | 

”| 

|AO«sn x4 | 


DOGif x8 
DCis x7 
la0@ x5 














BO+Usn x2 





d 
hclust (*, "complete") 


图 8.6: 八 个 体型 指标 的 谱系 图 和 聚 类 情况 


在 上 述 程序 中 ，p1lclust() 函数 是 另 一 种 绘 谱系 图 的 函数 ， 与 plot () 函数 
所 画图 形 略 有 差别 ， 其 具体 使 用 格式 如 下 : 
plclust(tree, hang=0.1, unit=FALSE, level=FALSE, hmin=0, 
square=TRUE, labels=NULL, plot. = TRUE, 
axes = TRUE, frame.plot = FALSE, ann = TRUE， 
main = "", sub = NULL, xlab=NULL, ylab="Height") 
中 tree 是 由 hclust () 函数 生成 的 对 象 . 其 他 参数 与 plot () 函数 中 的 参数 相 
同 . 


9. 实例 
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下 面 用 一 个 具体 的 实例 来 总 结 前 面 介绍 的 聚 类 分 析 的 方法 . 
例 8.8 表 8.6 列 出 了 1999 年 全 国 31 个 省 、 市 、 自 治 区 的 城镇 居民 家 庭 平 均 每 
人 全 年 消费 性 支出 的 入 个 主要 指标 (变量 ) 数据 ， 这 八 个 变量 是 
2Z6 一 娱乐 教育 文化 服务 


Tl1 一 食品 
Z2 一 衣着 


V4 


X5 一 交通 与 通讯 
23 一 家 庭 设 备用 品 及 服务 


一 医疗 保健 


27 


一 居住 


Z8 一 杂项 商品 和 服务 
分 别 用 最 长 距离 法 、 类 平均 法 、 和 恒心 法 和 Ward 方法 对 各 地 区 作 聚 类 分 析 . 


表 8.6: 31 个 省 、 市 、 自 治 区 消费 性 支出 数据 


Xl1 
2959.19 
2459.77 
1495.63 
1046.33 
1303.97 
1730.84 
1561.86 
1410.11 
3712.31 
2207.58 
2629.16 
1844.78 
2709.46 
1563.78 
1675.75 
1427.65 
1783.43 





VX2 
730.79 
495.47 
515.90 
477.77 
524.29 
553.90 
492.42 
510.71 
550.74 
449.37 
557.32 
430.29 
428.11 
303.65 
613.32 
431.79 
511.88 


3 
749.41 
697.33 
362.37 
290.15 
254.83 
246.91 
200.49 
211.88 
893.37 
572.40 
689.73 
271.28 
334.12 
233.81 
550.71 
288.55 
282.84 


4 
513.34 
302.87 
285.32 
208.57 
192.17 
279.81 
218.36 
277.11 
346.93 
211.92 
435.69 
126.33 
160.77 
107.90 
219.79 
208.14 
201.01 


25 
467.87 
284.19 
272.95 
201.50 
249.81 
239.18 
220.69 
224.65 
527.00 
302.09 
514.66 
250.56 
405.14 
209.70 
272.59 
217.00 
237.60 


X6 
1141.82 
735.97 
540.58 
414.72 
463.09 
445.20 
459.62 
376.82 
1034.98 
585.23 
795.87 
513.18 
461.67 
393.99 
599.43 
337.76 
617.74 


7 
478.42 
570.84 
364.91 
281.84 
287.87 
330.24 
360.48 
317.61 
720.33 
429.77 
575.76 
314.00 
535.13 
509.39 
371.62 
421.31 
523.52 


XL8 
457.64 
305.08 
188.63 
212.10 
192.96 
163.86 
147.76 
152.85 
462.03 
252.54 
323.36 
151.39 
232.29 
160.12 
211.84 
165.32 
182.52 
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表 8.6( 继 ): 31 个 省 、 市 、 自 治 区 消费 性 支出 数据 
Tl TL2 T3 Ta 5 Le 27 Tg 
1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.45 
3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 
2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27 
2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 
2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.80 
1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.46 
1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 
2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.95 
2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.33 
1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.34 
1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.19 
1654.69 437.77 258.78 303.00 244.93 479.53 288.56 236.51 
1375.46 480.99 273.84 317.32 251.08 424.75 228.73 195.93 
1608.82 536.05 432.46 235.82 250.28 541.30 344.85 214.40 


湖南 
广东 
广西 
海南 
重庆 
四 川 
贵州 
云南 
西藏 
陕西 
甘肃 


老 》 
月 


宁夏 
新 疆 


解 : 先 输 入 数据 ， 在 作 聚 类 分 析 之 前 ， 为 同等 地 对 竺 每 个 变量 ， 消 除数 据 在 
数量 级 的 影响 ， 对 数据 作 标准 化 . 然后 , 用 hclust () 作 聚 类 分 析 , 用 plot () 函 
数 画 出 谱系 图 ， 最 后 用 rect .hclust() 将 地 区 分 成 5 类 . 

下 面 是 相应 的 R 程序 (程序 名 : ”exam0808.R). 

#### 用 数据 框 形式 输入 数据 
X<-data.frame( 
xl1=c(2959.19，2459.77，1495.63，1046.33，1303.97，1730.84， 
1561.86，1410.11，3712.31，2207.58，2629.16，1844.78， 
2709.46，1563.78，1675.75，1427.65，1783.43，1942.23， 
3055.17，2033.87，2057.86，2303.29，1974.28，1673.82， 
2194.25，2646.61，1472.95，1525.57，1654.69，1375 .46， 
1608.82) ， 
Xx2=c(730.79，495.47，515.90，477.77，524.29，553.90，492.42， 
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510.71, 550.74, 449.37, 557.32, 430.29, 428.11,，303.65, 
613.32，431.79，511.88，512.27，353.23，300.82，186 .44， 
589.99，507.76，437.75，537.01，839.70，390.89，472.98， 
437.77，480.99，536.05) ， 
X3=c(749.41，697.33，362.37，290.15，254.83，246.91，200.49， 
211.88，893.37，572.40，689.73，271.28，334.12，233.81， 
550.71，288.55，282.84，401.39，564.56，338.65，202.72， 
516.21，344.79，461.61，369.07，204.44，447.95，328.90， 
258.78，273.84，432.46) ， 
Xx4=c(513.34，302.87，285.32，208.57，192.17，279.81，218.36， 
277.11，346.93，211.92，435.69，126.33，160.77，107.90， 
219.79，208.14，201.01，206.06，356.27，157.78，171.79， 
236.55，203.21，153.32，249.54，209.11，259.51，219.86， 
303.00，317.32，235.82) ， 
X5=c(467.87，284.19，272.95，201.50，249.81，239.18，220.69， 
224.65，527.00，302.09，514.66，250.56，405.14，209.70， 
272.59，217.00，237.60，321.29，811.88，329.06，329.65， 
403.92，240.24，254.66，290.84，379.30，230.61，206.65， 
244.93，251.08，250.28) ， 
x6=c(1141.82，735.97，540.58，414.72，463.09，445.20，459.62， 
376.82，1034.98，585.23，795.87，513.18，461.67，393.99， 
599.43，337.76，617.74，697.22，873.06，621.74，477.17， 
730.05，575.10，445.59，561.91，371.04，490.90，449.69， 
479.53，424.75，541.30) ， 
Xx7=c(478.42，570.84，364.91，281.84，287.87，330.24，360.48， 
317.61，720.33，429.77，575.76，314.00，535.13，509 .39， 
371.62，421.31，523.52，492.60，1082.82，587.02，312.93， 
438.41，430.36，346.11，407.70，269.59，469.10，249.66， 
288.56，228.73，344.85) ， 
X8=c(457.64，305.08，188.63，212.10，192.96，163.86，147.76， 
152.85，462.03，252.54，323.36，151.39，232.29，160.12， 
211.84，165.32，182.52，226.45，420.81，218.27，279.19， 
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225.80，223.46，191.48，330.95，389.33，191.34，228.19， 
236.51，195.93，214.40) ， 


row.names=c(" 北京 "，" 天 津 "，" 河北 "，" 山西 "," 内 蒙古 "， 
"辽宁 "，" 吉林 ",，" 黑龙 江 "，" 上 海 "，" 江苏 ",，" 浙江 "， 
"安徽 "，" 福建 "，" 江西 "，" 山东 ",，" 河南 "，" 湖北 "， 
" 湖南 ",， "广东 "， "广西 "," 海南 "，" 重庆 "，" 四 川 "， 
"宁夏 "，" 新 疆 ") 

) 

#### 生成 距离 结构 ， 作 系统 聚 类 

d <- dist(scale(X)) 


hcl <- hclust(d) ; hc2 <- hclust(d，"average'") 
hc3 <- hclust(d, "centroid'"); hc4 <- hclust(d, "ward") 


#### 绘 出 谱系 图 和 聚 类 情况 (最 长 距离 法 和 类 平均 法 ) 
opar<-par (mfrow=c(2,1), mar=c(5.2,4,0,0)) 











plclust(hci, hang=-1); rel<-rect.hclust(hci, k=5, border="red") 
plclust (hc2, hang=-1); re2<-rect.hclust(hc2, k=5, border="red") 
par (opar) 
其 结果 如 图 8.7 所 示 . 
按照 最 长 距离 法 得 到 的 五 类 分 别 是 : 
第 一 类 :西藏 
第 二 类 : 河北 、 山 西 、 和 内蒙古、 辽宁、 吉林、 四 龙 江 、 江 苏 、 安 徽 、 福 建 、 江 西 、 
山东 、 河 南 、 湖 北 、 湖 南 、 广 西 、 海 南 、 重 庆 、 四 川 、 贵 州 、 云 南 、 陕 西 、 甘 
肃 、 青 海 、 宁 夏 、 新 疆 
第 三 类 : 广东 
第 四 类 天津、 浙江 
第 五 类 :， 北京、 上海 
按照 类 平均 法 得 到 的 五 类 分 别 是 : 
第 一 类 :西藏 
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图 8.7: 消费 性 支出 数据 的 谱系 图 和 聚 类 结果 (1) 


第 二 类 ， 天津、 河北 、 山 西 、 内 蒙古 、 辽 宁 、 吉 林 、 黑 龙 江 、 江 苏 、 安 徽 、 福 建 、 
江西 、 山 东 、 河 南 、 湖 北 、 湖 南 、 广 西 、 海 南 、 和 重庆、 四川、 贵州、 云南 、 陕 
西 、 甘 肃 、 青 海 、 宁 夏 、 新 疆 

第 三 类 : 广东 

第 四 类 :上海 

第 五 类 ， 北京、 浙江 


#### 绘 出 谱系 图 和 聚 类 情况 (重心 法 和 Ward 法 ) 














opar<-par (mfrow=c(2,1), mar=c(5.2,4,0,0)) 

plclust (hc3,hang=-1); re3<-rect.hclust(hc3,k=5,border="red") 
plclust (hc4,hang=-1); re4<-rect.hclust(hc4,k=5,border="red") 
par (opar) 
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第 二 类 ， 西藏 
第 三 类 : 天津、 河北 、 江 苏 、 山 东 、 湖 北 、 湖 南 、 重 庆 、 四 川 、 云 南 、 新 弓 
第 四 类 : ， 山西、 内蒙古、 辽宁、 吉林 、 黑 龙 江 、 甘 肃 、 青 海 、 宁 夏 
第 五 类 : 安徽、 福建 、 江 西 、 河 南 、 广 西 、 海 南 、 贵 州 、 陕 西 
四 种 方法 得 到 的 类 有 的 是 相同 的 ， 有 的 是 不 相同 的 ， 可 以 根据 具体 的 数据 与 
背景 再 进一步 确定 认同 哪 种 聚 类 是 较为 合理 的 . 








8.2.3 ”动态 聚 类 法 


系统 聚 类 法 一 次 形成 类 以 后 就 不 能 改变 , 这 就 要 求 一 次 分 类 分 得 比较 准确 ， 
对 分 类 的 方法 提出 较 高 的 要 求 , 相应 的 计算 量 自然 也 较 大 . 如 Q 型 系统 聚 类 法 ， 
聚 类 的 过 程 是 在 样本 间距 离 矩 阵 的 基础 上 进行 ， 当 样本 容量 很 大 时 ， 需 要 占据 
足够 大 的 计算 机 内 存 ， 而 且 在 并 类 过 程 中 ， 需 要 将 每 类 样本 和 其 他 样本 间 的 距离 
逐一 加 以 比较 ， 以 决定 应 合并 的 类 别 ,需要 较 长 的 计算 时 间 ， 所 以 对 于 大 样本 问 
题 ， Q 型 系统 聚 类 法 可 能 会 因 计 算 机 内 存 或 计算 时 间 的 限制 而 无 法 进行 计算 ， 
这 给 应 用 带 来 一 定 的 不 便 . 基于 这 种 情况 ， 产 生 了 动态 聚 类 ， 即 动态 聚 类 法 . 

动态 聚 类 又 称 为 逐步 聚 类 法 ， 其 基本 思想 是 ， 开 始 先 粗略 地 分 一 下 类 ， 然 后 
按照 某 种 最 优 原则 修改 不 合理 的 分 类 ， 直至 类 分 得 比较 合理 为 止 , 这 样 就 形成 一 
个 最 终 的 分 类 结果 . 这 种 方法 具有 计算 量 较 小 , 占 计 算 机 内 存 较 少 和 方法 简单 的 
优点 ， 适 用 于 大 样本 的 Q 型 聚 类 分 析 . 

关于 动态 聚 类 法 的 算法 这 里 就 不 作 介绍 了 ， 任 何 一 本 《多 元 分 析 》 的 教科 
书 ， 均 有 此 方面 的 内 容 ， 如 果 需 要 的 话 ， 读 者 可 以 看 这 方面 的 参考 书 . 这 里 介绍 
用 于 动态 聚 类 的 R 函数 一 kmeans () 函数 . 

kmeans() 函数 采用 的 是 天- 均值 方法 , 是 采用 逐个 修改 方法 , 最早 由 Mac- 
Queen 在 1967 年 提出 来 ， 随 后 许多 人 对 此 作 了 许多 改进 . kmeans() 函数 的 使 
用 格式 为 


kmeans(x, centers, iter.max = 10, nstart = 1, 





algorithm = c("Hartigan-Wong", "Lloyd", 
"Forgy", "MacQueen")) 
其 中 x 是 由 数据 构成 的 窍 阵 或 数据 框 ， centers 是 聚 类 的 个 数 或 者 是 初始 类 的 
中 心 。 让 er .max 为 最 大 友 代 次 数 ( 缺 省 值 为 10). nstart 随机 集合 的 个 数 ( 当 
centers 为 聚 类 的 个 数 时 )，algorithm 为 动态 聚 类 的 算法 ( 缺 省 值 Hartigan- 
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Wong 方法 ). 
例 8.9 KK 一 均值 方法 ( kmeans() 函数 ) 对 例 8.8 给 出 的 31 个 省 、 市 、 自 治 区 
的 消费 水 平 进行 聚 类 分 析 . 

解 : 与 例 8.8 一 样 ， 为 消除 数据 数量 级 的 影响 ， 移 对 数据 作 标 准 化 处 理 ， 然 
后 再 用 kmeans() 函数 作 动 态 聚 类 ， 为 与 前 面 的 方法 作 比较 ， 类 的 个 数 选 择 为 5. 
算法 选择 "Hartigan-Wong", 即 缺 省 状态 . 

km <- kmeans(scale(X), 5, nstart = 20); km 
得 到 
K-means clustering with 5 clusters of sizes 1, 1, 16, 10, 3 
Cluster means : 
x1 X2 X3 X4 X5 

1 1.8042004 -1.12776493 0.9368961 1.2959544 3.90904835 
2 1.1255255 2.91079330 -1.0645632 -0.4082114 0.53291392 
3 -0.7008593 -0.33291790 -0.5450901 -0.2500165 -0.54749319 
4 0.2646918 0.04585518 0.2487958 -0.3405821 -0.01812541 
5 1.8790347 1.02836873 2.1203833 2.1727806 1.49972764 

x6 KK X8 
1.6014419 3.8803141 2.01876530 
-1.0476079 -0.9562089 1.66126641 
.6131804 -0.5420723 -0.57966702 
0.2587437 0.2874133 -0.02413414 
2.2232050 0.9583064 1.94532737 


Clustering vector: 


北京 天 津 河北 山西 内 蒙古 辽宁 吉林 黑龙 江 上 海 江苏 浙江 


oOo WW OO Pn 
| 
OO 


5 “4 .3 3 3 3 3 3 Br 吉 本 
安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 

3 -4 党 李 3 4 4 1 4 3 4 
四 川 贯 州 云南 西藏 陕西 甘肃 育 海 宁夏 《新疆 

和 3 二 3 


Within cluster sum of squares by cluster: 
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[1] 0.00000 0.00000 30.14432 22.12662 10.19134 

Available components: 

[1] "cluster" "centers" "withinss" "size" 

这 里 size 表示 各 类 的 个 数 ， means 表示 各 类 的 均值 ， Clustering 表示 育 类 后 

的 分 类 情况 . 
为 便于 看 出 聚 类 后 的 分 类 情况 ， 用 sort() 函数 (sort (km$cluster)) 对 分 

类 起 先 情况 排序 ， 并 整理 得 到 

第 一 类 : 广东 

第 二 类 : 西藏 

第 三 类 河北、 山西 、 内 蒙古 、 辽 宁 、 吉 林 、 黑 龙 江 、 安 徽 、 江 西 、 河 南 、 海 南 、 
贵州 、 陕 西 、 甘 肃 、 青 海 、 宁 夏 、 新 疆 

第 四 类 : 天津、 江苏 、 福 建 、 山 东 、 湖 北 、 湖 南 、 广 西 、 重 庆 、 四 川 、 云 南 

第 五 类 : 北京、 上 海 、 浙 江 








习题 八 


8.1 根据 经 验 ， 今天 与 昨天 的 湿度 差 XX 及 今天 的 压 温 差 ( 气压 与 温度 之 差 ) 
表 8.7: 湿度 差 与 压 温差 数据 


非 雨 天 
XX1 (湿度 差 ) X2( 压 温差 ) 
一 1.9 0.2 
一 6.9 7.5 
5.2 14.6 
5.0 8.3 
7.3 0.8 
6.8 4.3 
0.9 10.9 
一 12.5 13.1 
1.5 12.8 
3.8 10.0 
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Xo 是 预报 明天 下 雨 或 不 下 雨 的 两 个 重要 因素 . 现 有 一 批 已 收集 的 数据 资料 , 如 表 
8.7 所 示 . 今 测 得 zl 二 8.1, za = 2.0, 试问 预报 明天 下 雨 还 是 预报 明天 不 下 雨 ? 
分 别 用 距离 判别 、 Bayes 判别 (考虑 方差 相同 与 方差 不 同 两 种 情况 ) 和 Fisher 
判别 来 得 到 你 所 需要 的 结论 . 

8.2 某 医院 研究 心电图 指标 对 健康 人 ( 了 )、 硬 化 症 患 者 ( 厅 ) 和 冠 心病 患者 
( IT ) 的 鉴别 能 力 ， 现 获得 训练 样本 如 表 8.8 所 示 . 试用 距离 判别 (考虑 方差 
相同 与 方差 不 同 两 种 情况 )、 Bayes 判别 (考虑 方差 相同 与 方差 不 同 两 种 情况 ， 
且 先 验 概率 为 11/23, 7/23, 5/23 ) 对 数据 进行 分 析 . 


表 8.8: 3 类 23 人 的 心电图 指标 数据 


个 2 
1 7.36 
2 5.99 
3 6.11 
4 4.35 
5 8.79 
6 8.53 
7 10.02 
8 9.79 
9 8.79 
10 8.53 
11 6.15 
12 II 8.49 
13 II 7.16 
14 II 9.43 
17 II 8.17 
17 II 9.67 
18 II 10.49 
19 III 9.61 








La 
13.72 
11.00 
11.19 

0.94 
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8.3 为 了 更 深入 地 了 解 我 国人 口 的 文化 程度 状况 ， 现 利用 1990 年 全 国人 中 普查 


数据 对 全 国 30 个 省 、 直 辖 市 、 自 治 区 进行 聚 类 分 析 . 原始 数据 如 表 8.9 所 示 ， 


表 8.9: 1990 年 全 国人 口 普查 文化 程序 人 中 比例 


地 区 | DXBZ CZBZ WMBZ 


北京 
天 津 
河北 


内 蒙古 


析 选 用 了 三 个 指标 : 


30.55 
29.38 
24.69 
29.24 
25.47 
32.32 
26.31 
28.46 
31.59 
26.43 
23.74 
19.97 
16.87 
18.84 
25.18 


8.70 
8.92 
15.21 
11.30 
15.39 
8.81 
10.49 
10.87 
11.04 
17.23 
17.46 
24.43 
15.63 
16.22 
16.87 





DXBZ 
0.85 
1.57 
1.14 
1.34 
0.79 
1.24 
0.96 
0.78 
0.81 
0.57 
1.67 
1.10 
1.49 
1.61 
1.85 


CZBZ 
26.55 
23.16 
22.57 
23.04 
19.14 
22.53 
21.65 
14.65 
13.85 

3.85 

24.36 
16.85 
17.76 
20.27 
20.66 


WMBZ 
16.15 
15.79 
12.10 
10.45 
10.61 
13.97 
16.24 
24.27 
25.44 
44.43 
17.62 
27.93 
27.70 
22.06 
12.75 


分 


(1) 大 学 以 上 文化 程度 的 人 口 占 全 部 人 口 的 比例 (DXB2); 


(2) 初中 文化 程度 的 人 口 占 全 部 人 口 的 比例 (CZB2); (3) 文盲 半 文 盲人 口 占 全 部 
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人 口 的 比例 (WMB2Z) 分 别 用 来 反映 较 高 、 中 等 、 较 低 文 化 程度 人 口 的 状况 ， 
(1) 计算 样本 的 Buclide 距离 ， 分 别 用 最 长 距离 法 、 均 值 法 、 重 心 法 和 Ward 
法 作 聚 类 分 析 ， 并 画 出 相应 的 谱系 图 . 如 果 将 所 有 样本 分 为 4 类 ， 试 写 出 各 种 方 
法 的 分 类 结果 ; 
(2) 用 动态 聚 类 方法 ( 共 分 为 4 类 ), 给 出 相应 的 分 类 结果 . 
8.4 对 18 位 应 聘 者 数据 ( 见 第 三 章 例 3.17 中 的 表 3.5) 的 自 变 量 作 聚 类 分 析 ， 
选择 变量 的 相关 系数 作为 变量 间 的 相似 系数 (cij), 距离 定义 为 dij 三 1 一 Ci. 分 别 
用 最 长 距离 法 、 均 值 法 、 重 心 法 和 Ward 法 作 聚 类 分 析 ， 并 画 出 相应 的 谱系 图 . 
如 果 将 所 有 变量 分 为 5 类， 试 写 出 各 种 方法 的 分 类 结果 . 


第 九 章 ”应 用 多 元 分 析 (II) 


前 面 一 章 介绍 了 判别 分 析 和 聚 类 分 析 , 这 两 种 方法 均 是 处 理 数据 分 类 问题 . 
本 章 介绍 多 元 分 析 的 另 一 部 分 内 容 一 主 成 分 分 析 、 因 子 分 析 和 典型 相关 分 析 . 
这 三 种 方法 的 共同 点 是 对 数据 作 降 维 处 理 ， 从 数据 中 提取 某 些 公共 部 分 ， 然 后 这 
这 公共 部 分 进行 分 析 和 处 理 ， 得 到 我 们 需要 的 结论 . 

与 上 一 章 相 同 ， 本 章 的 重点 还 是 放 在 用 R 软件 来 进行 主 成 分 分 析 、 因 子 分 
析 和 典型 相关 分 析 ， 而 对 于 各 种 分 析 所 用 到 的 概念 只 作 简 单 介 绍 . 





9.1 主 成 分 分 析 


主 成 分 分 析 (Principal component analysis) 是 将 多 指标 化 为 少数 几 个 综合 指 
标的 一 种 统计 分 析 方 法 ， 是 由 Pearson(1901) 提出 ,后 来 被 Hotelling(1933) 发 展 
了 . 主 成 分 分 析 是 一 种 通过 降 维 技术 把 多 个 变量 化 成 少数 几 个 主 成 分 的 方法 . 这 
些 主 成 分 能 够 发 映 原 始 变量 的 绝 大 部 分 信息 , 它们 通常 表示 为 原始 变量 的 线性 组 


人 
日 : 


9.1.1 总 体 主 成 分 
1. 主 成 分 的 定义 与 导出 
设 X 是 p 维 随机 变量 ,并 假设 j= 上 (X), 二 = Var(X). 考虑 如 下 线性 变换 


Zi1=alxX 
Zo =alX 
(9.1) 
二 
易 见 
Var(2Z;) = alYa;, i= 1,2,...,%, (9.2) 
Cov(2i,2;) = alYa;, ij=1,2,..,p, i (9.3) 


我 们 希望 和 1 方差 达到 最 大 ， 即 al 是 约束 优化 问题 
max al Ya 


Ss.t. ara 一 1 
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的 解 . 因此 ,ai 是 民 最 大 特征 值 (不 妨 设 为 Xi) 的 特征 向 量 . 此 时 , 称 2 = af 关 为 
第 一 主 成 分 . 类 似 地 , 希望 22 的 方差 达到 最 大 , 并 且 要 求 Cov(21, 2) = of Ya 
0. 由 于 ai 是 Ai 的 特征 向 量 ， 所 以 ， 选 择 的 a 应 与 al 正 交 . 类似 于 前 面 的 推 
导 ，a2 是 民 第 二 大 特征 值 (不 妨 设 为 和 2) 的 特征 向 量 ， 称 2 = a2X 为 第 二 主 
成 分 . 
一 般 情况 . 对 于 协 方差 阵 2, 存在 正 交 阵 @, 将 它 化 为 对 角 阵 ， 即 
和 1 
和 2 


orzo = A - (9.4) 
、 、 
且 和 > 和》 >:…>Xp 则 @ 的 第 ; 列 就 对 应 于 ai, 相应 的 2 为 第 i 主 成 分 . 
2. 主 成 分 的 性 质 
关于 主 成 分 有 如 下 性 质 : 
(1) 主 成 分 的 均值 和 协 方差 阵 . 
记 





Z1 入 1 
Za 和 2 


由 于 
2 = QX, (9.5) 


所 以 有 
= E(Z)= E(Q"X)=Q E(X)= Qh, 


VU 
Var(2Z) = QVar(X)Q = Q'%Q=A. 


(2) 主 成 分 的 总 方差 
由 于 
tr(A) = tr(QTEQ) = tr(29Q7) = tr(5), 
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所 以 ， 


p 


DN -> 0;; 或 > Var(Z -> Var(X 


由 此 可 以 看 出 ， 主 成 分 分 析 把 p 个 原始 变量 Xi1, X2,……, Xj 的 总 方差 分 解 成 了 7 
个 不 相关 变量 1, 22,…, Zp 的 方差 之 和 . 

称 总 方差 中 第 i 个 主 成 分 2; 的 比例 入 Ie 入 为 主 成 分 2; 的 贡献 率 ， 第 一 
主 成 分 禾 的 贡献 率 最 大 ， 表明 它 解 释 原始 变量 Xi1X2 ,Xp 的 能 力 最 强 ， 而 
Zo, Za 也 的 解释 能 力 依次 递减 ， 主 成 分 分 析 的 目的 就 是 为 了 减少 变量 的 个 
数 ， 因 而 一 般 是 不 会 使 用 所 有 的 p 个 主 成 分 ， 忽略 一 些 有 较 小 方 老 的 主 成 分 ， 将 
不 会 给 总 方差 带 来 大 的 影响 ， 称 前 m 个 主 成 分 的 贡献 率 之 和 2 Xi/ ~ 为 主 
成 分 Z1, 0， ) Zm 的 累积 贡献 率 ， 它 表 明 Z1, 0 ,Lm 解释 X1, AX2 , Xp 
的 能 力 . 相对 于 p, 通常 取 较 小 的 m, 使 得 累积 贡献 率 达 到 一 个 较 高 的 百分比 (如 
80% 至 90%). 此 时 ， 儿 1, 22,…,Zm 可 用 来 代替 XX1, 2,… ,Xj, 达到 降 维 的 目 
的 ， 而 信息 的 损失 却 不 多 . 

(3) 原始 变量 Xi 与 主 成 分 Zi; 之 间 的 相关 系数 . 

由 于 式 (9.5), 知 





过 二 个 沁 (9.6) 
即 
Ai 三 011 十 gj2 十 .十 0ip2p， (9.7) 
所 以 ， 
Cov(X;, 2;) 二 Cov (qi;Z;, Zi) = GjiNi, J 3 1,2, “"*,b, (9.8) 
Cov(X;, Zi) NN 


p(Xj, Zi) 二 一 二 ji J,1 二 1, 2,: “*,P: (9.9) 


在 实际 应 用 中 ， 通 第 只 对 X; 与 Zi 的 相关 系数 感 兴 

(4) m 个 主 成 分 对 原始 变量 的 贡献 率 . 

前 面 提 到 的 累积 贡献 率 这 个 概念 度量 了 m 个 主 成 分 2 2o, ……， Zm 从 原始 
变量 Xi Xs,…, X, 中 提取 信息 的 多 少 ， 那 么 71，22,…, 2 包含 有 Xi(7 = 
1,2,.…,p) 的 多 少 信息 应 该 用 什么 指标 来 度量 呢 ? 这 个 指标 就 是 Xi 与 21, 2， 
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….,Zm 的 复 相关 系数 的 平方 ， 称 为 m 个 主 成 分 0, 22,.…, Zm 对 原始 变量 X; 


Den dp (i = Yd (9.10) 
i=1 2=1 


对 式 (9.7) 两 边 取 方差 ， 得 到 





0jj = QM 十 gj2Xa 十 :十 gj7pXp， (9.11 ) 


由 于 十 9% 十 … 十 q% 二 1, 故 0;; 实际 上 是 入 ,和 2,…, Wp 的 加 权 平 均 . 
由 式 (9.10)- 式 (9.11), 可 以 得 到 1, 5,…, 2 对 X; 的 贡献 率 
p p 
Prin = 27 (X32) Nn/0y =1. (9.12) 
en ii 
(5) 原始 变量 对 主 成 分 的 影响 . 
式 (9.5) 也 可 以 表示 成 
Zi 一 01UX1 十 q2X2 十 :十 gmi 和 pi 
称 g;; 为 第 i 主 成 分 在 第 ; 个 原始 变量 Xi 上 的 载荷 ， 它 度量 了 X; 对 2; 的 重要 
程度 . 
3, 从 相关 和 矩阵 出 发 求 主 成 分 


当 各 变量 的 单位 不 全 相同 ， 或 虽 单 位 相同 ， 但 变量 间 的 数值 大 小 相差 较 大 
时 ， 直 接 从 协 方差 阵 出 发 进行 主 成 分 分 析 就 显得 不 妥 . 为 了 使 主 成 分 分 析 能 
够 均等 的 对 竺 每 一 个 原始 变量 ,消除 由 于 单位 不 同时 可 能 带 来 的 影响 ,常常 将 原 
变量 作 标准 化 处 理 ， 即 令 








pm 
VOji 


显然 ，X* = (7) 的 方差 矩阵 就 是 X 的 相关 矩阵 RR. 
从 相关 矩阵 及 出 发 导出 的 主 成 分 方法 与 从 协 方差 阵 出 发 的 导出 的 主 成 分 
方法 完全 类 似 ， 并 且 得 到 的 主 成 分 的 一 些 性 质 更 加 简洁 . 
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设 守 之 息 之 二》 二 0 为 相关 矩阵 玉 的 2 个 特征 值 ， oo ,ap 为 
相应 的 单位 特征 向 量 ， 且 相互 正 交 ， 则 相应 的 p 个 主 成 分 为 


2 i= 1,2,..…,p. 
令 Z* = (2Z7, 22) 0 Zan QO” (al， Q2， “ 02 于 是 

AR QTX*. 

关于 相关 和 矩阵 RR 的 主 成 分 有 如 下 性 质 
也 
(2) 2 一 7 
(3) 变量 X; 与 主 成 分 你 之 间 的 相关 系数 
p(Xi, Zi) = VA 07 7 = 1， 2 “, Pp. 


pm = 3 (X37, 27) = -De 


p 
te 2 (X37, 27) = = N=1. 
2 一 工 


9.1.2 ”样本 主 成 分 


前 面 讨论 的 是 总 体 主 成 分 ， 而 在 实际 问题 中 ， 一 般 总 体 的 协 方差 阵 习 或 相 
关 和 矩阵 羽 是 未 知 的 ， 需要 通过 样本 来 估计 . 

设 Xa = (zh Zi2 Zip) (二 1,2,…,n) 为 来 自 总 体 X 的 样本 ， 记 样 
本 数据 矩阵 为 


x 
X11 X12 *** Yip 从 1 


T 
Y21 X22 i Yop | A 


= [X1, X», ee .Xp], 


Tnl Xn2 *** Xnp Xp， 
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其 中 XG) 表示 样本 数据 矩阵 的 各 行 ，X; 表示 样本 数据 矩阵 的 各 列 . 所 以 , 样本 




















的 方差 矩阵 5 为 
1 nN 
- 入 n—1 (Xn —X) (Ka —X) 一 si) xp， 
k=1 
其 中 
= a i 
三 》 X= VT); 
St 
1 二 A 
5i 二 7 2 (Sri — Fi) (rns — 12), 1,7 = 1,2,.……,p. 
k=1 
及 样本 的 相关 和 矩阵 及 为 
- 洲 * 人 
i = (rij)yxp’ 
k=1 
其 中 
* |Xkl— TY Tk2— TL2 Tkp — Tp 
所 (人 = , ) 
VS11 V 522 Spp 
Si 3 
0 i 27 = 1,2, ) 也 
127 


1. 从 5 出 发 求 主 成 分 


设 入 二 和 2 >… > 和 0 为 样本 协 方差 阵 5 的 特征 值 ，a1, az， 
应 的 单位 特征 向 量 ， 且 彼此 正 交 . 则 第 i 个 主 成 分 % = ai x, i = 1,2,…… 





T= (71, X22, Tp) . 令 
之 二 (21， ZD 2 ) Ea (al， Q2) Qap) x = QI5， 


其 中 Q@ = (ai1, a2,… ,yp) 二 (qij)pxp: 
下 面 构造 样本 主 成 分 ， 令 


Ze Xe 


“,Up 为 相 
“,b, 其 中 
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因此 样本 主 成 分 为 
2 20 XOQ 
2 2 2 … zap 20 四 XQ _x0 
nl Zn2 Znp Z6, XQ 


= [Xa Xaz,..., Xas] = [21, 22,.., 2), 


其 中 Zix) 表示 样本 主 成 分 的 各 行 ， 2; 表示 样本 主 成 分 的 各 列 . 
对 于 样本 主 成 分 有 如 下 性 质 ; 
(1) Var(2;) 二 7 了 二 二 2 
(2) Cov (Zi, 2Z;) = 0,%,7=1,2,.…,p,， i/. 
(3) 样本 总 方差 


p 


p 
> 


(4) Xj 与 Zi 的 样本 相关 系数 
VN 


4 ge 77 = 1,2,..:,p. 
在 实际 应 用 中 ， 常 常 将 样本 数据 中 心 化 ， 这 不 影响 样本 协 方差 阵 3. 考虑 中 
心 化 数据 窍 阵 


(ER 
= Xi — XT 
xX_1xr (Xo) ) 
(Ko — X)T 
其 中 1 = (1,1,…,1)7 € R", 对 应 的 主 成 分 数据 为 

Zl 212 *** ZIlp 2 (Xa) 人 X)Q 
7 一 Z21 X22 22p| 2%) 加 (SO) 二 2 
Znl Xn2 *** Znp Z6,) (Xn) er XQ 


2. 从 RR 出 发 求 主 成 分 
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设 宫 之 入 之 … 和 二 Xp 过 0 为 样本 相关 矩阵 尺 的 特征 值 ， o 号 ,ap 为 
相应 的 单位 特征 向 量 ， 且 彼此 正 交 . 





今 
_ T Wx* 
其 中 Q 二 (ai, Q2， “*)， a ), 因此 样本 主 成 分 为 
211 Zl2 Zip 的 XH) Q 
i | 


= 区 "an 和 X avXdj = [2Z1, 22,.…, 2,], 
其 中 4 表示 样本 主 成 分 的 各 行 ， 2Z; 表示 样本 主 成 分 的 各 列 . 
对 于 样本 主 成 分 有 如 下 性 质 : 
(1) Var(2}) 到 和 7 二 1,2, “* ,Pp. 
(2 ) 2 = 0, 7,7 3 1 2D i#7. 
DD 
7=1 
(4) X? 与 如 的 样本 相关 系数 
rT(Xi, Zi) = A J,1 = 1,2,..…,p. 


9.1.3 ”相关 的 R 函数 以 及 实例 
下 面 介 绍 与 主 成 分 分 析 有 关 的 函数 . 
1. princomp 函数 
作 主 成 分 分 析 最 主要 的 函数 是 princomp() 函数 ， 其 使 用 格式 为 


princomp(formula, data = NULL, subset, na.action, ...) 
其 中 formula 是 没有 响应 变量 的 公式 (类 似 回 归 分 析 、 方差 分 析 , 但 无 响应 变量 ) 
data 是 数据 框 (类 似 于 回归 分 析 、 方 差分 析 ). 或 者 

princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, 








subset = rep(TRUE, nrow(as.matrix(x))), ...) 


9.1 主 成 分 分 析 505 


其 中 x 是 用 于 主 成 分 分 析 的 数据 ， 以 数值 害 阵 或 数据 框 的 形式 给 出 。 cor 是 逻 
辑 变量 ， 当 cor=TRUE 表示 用 样本 的 相关 算 阵 RR 作 主 成 分 分 析 ， 当 cor=FALSE 
( 缺 省 值 ) 表示 用 样本 的 协 方差 阵 3 作 主 成 分 分 析 . covmat 是 协 方差 阵 ， 如 果 
数据 不 用 x 提供 ， 可 由 协 方差 阵 提供 .其 他 参数 的 意义 见 在 线 帮 助 . 
prcomp() 函数 的 意义 与 使 用 方法 与 princomp() 函数 相同 . 
2. summary 函数 
summary() 与 回归 分 析 中 的 用 法 相同 ,其 目的 是 提取 主 成 分 的 信息 ， 其 作用 
格式 为 
summary (object, loadings = FALSE, cutoff = 0.1, ...) 
其 中 object 是 由 princomp() 得 到 的 对 象 .，loadings 是 逻辑 变量 , 当 loadings 
= TRUE 表示 显示 loadings 的 内 容 (具体 含义 在 下 面 的 loadings() 函数 ), 当 
loadings = FALSE 则 不 显示 . 
3. loadings 函数 
loadings() 函数 是 显示 主 成 分 分 析 或 因子 分 析 中 1oadings( 载 荷 ， 见 因子 
分 析 ) 的 内 容 ， 在 主 成 分 分 析 中 ， 该 内 容 实 际 上 是 主 成 分 对 应 的 各 列 ， 即 前 面 分 
析 的 正 交 和 矩阵 @. 在 因子 分 析 中 ， 其 内 容 就 是 载 答 因子 矩阵 loadings() 函数 
的 使 用 格式 为 
loadings (x) 
其 中 x 是 由 函数 princomp() 或 factanal()( 见 因子 分 析 ) 得 到 的 对 象 . 
4. predict 函数 
predict() 函数 是 预测 主 成 分 的 值 (类 似 于 回归 分 析 中 的 使 用 方法 ), 其 使 用 
格式 为 
predict(object, newdata, ...) 
其 中 object 是 由 Princomp() 得 到 的 对 象 . newdata 是 由 预测 值 构 成 的 数据 
框 ， 当 newdata 缺 省 时 ， 预 测 已 有 数据 的 主 成 分 值 . 
5. screeplot 函数 
screeplot() 也 数 是 画 出 主 成 分 的 碎 石 图 ， 其 使 用 格式 为 


screeplot (x, npcs = min(10, length(x$sdev)), 
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type = c("barplot", "lines'"), 

main = deparse(substitute(x)), ...) 
其 中 x 是 由 princomp() 得 到 的 对 象 . npcs 是 画 出 的 主 成 分 的 个 数 . type 是 
描述 画 出 的 碎 石 图 的 类 型 ，"barplot" 是 直方 图 类 型 ， "lines" 是 直线 图 类 型 . 


6. biplot 函数 


biplot() 是 画 出 数据 关于 主 成 分 的 散 点 图 和 原 坐标 在 主 成 分 下 的 方向 ， 其 
使 用 格式 为 

biplot(x，choices = 1:2, scale = 1, pc.biplot = FALSE, ...) 
其 中 x 是 由 princomp() 得 到 的 对 象 ， choices 是 选择 的 主 成 分 ， 缺 省 值 是 第 
1 、 第 2 主 成 分 .pc.biplot 是 逻辑 变量 ( 缺 省 值 为 FALSE), 当 pc.biplot=TRUE， 
用 Gabriel (1971) 提出 的 画图 方法 . 

7. 实例 

下 面 用 一 个 例子 说 明 前 面 介绍 的 函数 的 使 用 方法 . 

例 9.1 (中 学 生 身 体 四 项 指标 的 主 成 分 分 析 ) 

在 某 中 学 随机 抽取 某 年 级 30 名 学 生 ， 测 量 其 身高 (X1) 、 体 重 (X2) 、 胸 转 
(X3s) 和 人 举 高 (X4), 数据 如 表 9.1 所 示 . 试 对 这 30 名 中 学 生 身 体 四 项 指标 数据 做 
主 成 分 分 析 . 

解 : 用 数据 框 的 形式 输入 数据 . 用 princomp() 作 主 成 分 分 析 ， 由 前 面 的 分 
析 ， 选 择 相关 矩阵 作 主 成 分 分 析 更 合理 ， 因 此 ， 这 里 选择 的 参数 是 cor=TRUE. 最 
后 用 summary() 列 出 主 成 分 分 析 的 值 ， 这 里 选择 1oadings=TRUE. 以 下 是 相应 的 
程序 (程序 名 : ”exam0901.R). 

#### 用 数据 框 形式 输入 数据 
> student<-data.frame( 
X1=c(148，139，160，149，159，142，153，150，151，139， 
140，161，158，140，137，152，149，145，160，156， 
151，147，157，147，157，151，144，141，139，148) ， 
X2=c(41，34，49，36，45，31，43，43，42，31， 
29，47，49，33，31，35，47，35，47，44， 
42，38，39，30，48，36，36，30，32，38) ， 
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表 9.1: 30 名 中 学 生 身 体 四 项 指标 数据 
XX 从 3 Xa 


35 73 79 
47 82 79 
35 70 77 
47 74 87 
44 78 85 
42 73 82 
38 73 78 
39 68 80 
30 65 75 
48 80 88 
36 74 80 
36 68 76 
30 67 76 
32 68 73 
38 70 78 





X3=c(72, 71, 77, 67, 80, 66, 76, 77,，77，68, 
64, 78, 78, 67, 66, 73, 82, 70, 74, 78, 
73, 73, 68, 65, 80, 74, 68, 67,，68,70)，, 
X4=c(78, 76, 86, 79, 86, 76, 83, 79，80, 74, 
74, 84, 83, 77, 73, 79, 79, 77, 87, 85, 
82, 78, 80, 75, 88, 80, 76, 76, 73,78) 

) 


#### 作 主 成 分 分 析 ， 并 显示 分 析 结 果 


> Student .pr <- princomp(student, cor = TRUE) 





> summary(student .pr, loadings=TRUE) 
Importance of components: 


Comp.1 Comp.2 Comp.3 Comp.4 
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Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 
Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 
Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 


Loadings: 

Comp.1 Comp.2 Comp.3 Comp .4 
X1 -0.497 0.543 -0.450 0.506 
X2 -0.515 -0.210 -0.462 -0.691 
X3 -0.481 -0.725 0.175 0.461 
X4 -0.507 0.368 0.744 -0.232 

在 上 述 程序 中 , 语句 student .pr <- princomp(student, cor = TRUE) 可 
以 改 成 student .pr <- princomp(~X1+X2+X3+X4,，data=student，cor=TRUE)， 
两 者 是 等 价 的 . 

summary() 函数 列 出 了 主 成 分 分 析 的 重要 信息 ， Standard deviation 行 
表示 的 是 主 成 分 的 标准 差 ， 即 主 成 分 的 方差 的 开 方 ， 也 就 是 相 就 的 特征 值 Al， 
和 2， 和 和 3， 和 4 的 开 方 . ” Proportion of Variance 行 表示 的 是 方差 的 贡献 率 . 
Cumulative Proportion 行 表示 的 是 方差 的 累积 贡献 率 . 

由 于 在 summary 也 数 的 参数 中 选取 了 loadings=TRUE, 因此 列 出 了 loadings 
(载荷 ) 的 内 容 ， 它 实际 上 是 主 成 分 对 应 于 原始 变量 Xi, X2, Xs, X4 的 系数 ， 即 前 
面 介绍 的 矩阵 &. 因此 ， 得 到 





Z+ = 一 0.497XY 一 0.515XY 一 0.481XY — 0.507X2, 
三 


由 于 前 两 个 主 成 分 的 累积 贡献 率 已 达到 96%, 另外 二 个 主 成 分 可 以 舍 去 ， 达 到 降 
维 的 目的 . 

第 1 主 成 分 对 应 系数 的 符号 都 相同 ， 其 值 在 0.5 左右 ， 它 反映 了 中 学 生 身 材 
魁梧 程度 : 号 体高 大 的 学 生 ， 他 的 4 个 部 分 的 尺寸 都 比较 大 ， 因 此 ， 第 1 主 成 分 
的 值 就 较 小 (因为 系数 均 为 负 值 ); 而 身材 矮小 的 学 生 ， 他 的 4 部 分 的 尺寸 都 比较 
小 , 因此, 第 1 主 成 分 绝对 值 就 较 大 . 我们 称 第 1 主 成 分 为 大 小 因子 . 第 2 主 成 
分 是 高 度 与 围 度 的 差 , 第 2 主 成 分 值 大 的 学 生 表明 该 学 生 “ 细 高 ， 而 第 2 主 成 分 
值 越 小 的 学 生 表 明 该 学 生 “ 矮 胖 ", 因此 ， 称 第 2 主 成 分 为 体形 因子 . 


我 们 看 一 下 各 样本 的 主 成 分 的 值 (用 Predict() 函数 ). 


#### 作 预 测 


> predict(student. 


‘Oi OO TO oo WW OO Pe 


FF 上 上 
WW dD ~ OO 


14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 


Comp.1 


.06990950 
.59526340 
.84793151 
.75996988 
.73966777 
.10583168 
.42105591 
.82583977 
.93464402 
.36463820 


2.83741916 


.60851224 
.44253342 


1.86630669 


.81347421 


0.06392983 


.55561022 
.07392251 
.52174212 
.14072377 
.79624422 
.28708321 
.25151075 
.05706032 
.08596855 
.16367555 
.37265053 
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PT) 
Comp .2 


.23813701 
.71847399 


0.38956679 
0.80604335 
0.01718087 
0.32284393 


.06053165 
.78102576 
.58469242 
.36532199 
.34875841 
.21278728 
.16769496 
.05021384 
.31790107 
.20718448 
.70439674 
.06763418 


0.97274301 
0.02217881 


.16307887 
.35744666 
.25555188 
.78894494 
.05775318 


0.04317932 
0.02220972 


分 分 析 


Comp .3 


.35509248 
.32813232 
.09731731 
.04945722 


0.36012615 
0.18600422 


.21093321 
.27557798 
.08814136 


0.08840476 
0.03310423 


.33398037 
.46918095 
.37720280 
.03291329 

0. 
=0: 

0. 


04334340 
33126406 
02283648 


0.12164633 
0.37410972 


.12781270 
-0. 
=0. 
-0. 

0. 


03962116 
55617325 
26552109 
62110421 


0.24481850 


-0: 


23378320 


Comp.4 


.266120139 
.118056646 
.279482487 
.162949298 
.358653044 
.036456084 
.044223092 


0.057288572 
0.181037746 
0.045520127 


.031146930 
.210157574 
.162987830 
.358821916 
.222035112 


0.703533624 
0.007551879 
0.048606680 


.390667991 
.129548960 
.294140762 


0.080991989 
0.109068939 


.388088643 
.218939612 
.560248997 
.257399715 


509 
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28 2.16097778 0.13733233 0.35589739 0.093123683 
29 2.40434827 -0.48613137 -0.16154441 -0.007914021 
30 0.50287468 0.14734317 -0.20590831 -0.122078819 

从 第 1 主 成 分 来 看 ， 较 小 的 几 个 值 是 25 号 样本 、 3 号 样本 和 5 号 样本 ， 
因此 说 明 这 几 个 学 生 身 材 魁 梧 ; 而 11 号 样本 、 15 号 样本 和 29 号 样本 的 的 值 较 
大 ， 说 明 这 几 个 学 生 身 材 瘦 小 . 

从 第 2 主 成 分 来 看 ， 较 大 的 几 个 值 是 23 号 样本 、 19 号 样本 和 4 号 样本 ， 
因此 说 明 这 几 个 学 生 属 于 “ 细 高 " 型 ; 而 17 号 样本 、 8 号 样本 和 2 号 样本 的 的 
值 较 小 ， 说 明 这 几 个 学 生 身 材 属于 “ 矮 胖 ”型 . 

画 出 主 成 分 的 的 碎 石 图 . 

> Screeplot(student .pr,type='"1ines") 


参数 选择 的 直线 型 ， 其 图 形 如 图 9.1 所 示 . 
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图 9.1: 30 名 中 学 生 吴 体 指标 数据 主 成 分 的 碎 石 图 


还 可 以 画 出 关于 第 1 主 成 分 和 第 2 主 成 分 样本 的 散 点 图 ， 其 图 形 如 图 9.2 所 
示 . 从 该 散 点 图 可 以 很 容易 看 出 ; 哪些 学 生 属于 高 大 魁梧 型 ， 如 25 号 学 生 ， 哪 
些 学 生 属 于 身材 瘦小 型 ， 如 11 号 或 15 号 ; 哪些 学 生 属 于 “ 细 高 型 ， 如 23 号 ， 
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Comp.2 








Comp.1 


图 9.2: 30 名 中 学 生 吴 体 指 标 数据 关于 第 1 主 成 分 和 第 2 主 成 分 的 散 点 图 


哪些 学 生 属 于 “ 矮 胖 ” 型 ， 如 17 号 , 还 有 哪些 学 生 属 于 正常 体形 ， 如 26 号 ， 等 
等 . 


9.1.4 ” 主 成 分 分 析 的 应 用 


这 一 小 节 讲 两 个 问题 作为 主 成 分 分 析 的 应 用 , 一 个 是 变量 分 类 问题 ， 男 一 个 
是 主 成 分 回归 问题 . 


1. 主 成 分 分 类 
例 9.2 对 128 个 成 年 男子 的 身材 进行 测量 , 每 人 各 测 得 16 项 指标 : 身高 (Xi1) 、 
坐 高 (X2) 、 胸 围 (X3) 、 头 高 (X4) 、 裤 长 (X5) 、 下 档 (X6) 、 手 长 (X7) 、 领 
围 (Xs) 、 前 胸 (X9) 、 后 背 (Xio) 、 肩 厚 (Xl1) 、 肩 宽 (Xi2) 、 视 长 (X13) 、 肋 
围 (X14) 、 腰 围 (X15) 和 腿 肚 (X16). 16 项 指标 的 相关 矩 阵 尺 如 表 9.2 所 示 (由 
于 相关 抠 阵 是 对 称 的 ， 只 给 出 下 三 角 部 分 ) 试 从 相关 上 短 阵 尼 出 发 进行 主 成 分 分 
析 ， 对 16 项 指标 进行 分 类 ， 
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表 9.2: 16 项 身体 指标 数据 的 相关 和 矩阵 
X1 AX2 Xs X4 Xs Xe Xr Xs Xo Xio AI Xi2 X13 X14 X15 从 16 
1.00 
0.79 1.00 
0.36 0.31 1.00 
0.96 0.74 0.38 1.00 
0.89 0.58 0.31 0.90 1.00 
0.79 0.58 0.30 0.78 0.79 1.00 
0.76 0.55 0.35 0.75 0.74 0.73 1.00 
0.26 0.19 0.58 0.25 0.25 0.18 0.24 1.00 
0.21 0.07 0.28 0.20 0.18 0.18 0.29 -0.04 1.00 
0.26 0.16 0.33 0.22 0.23 0.23 0.25 0.49 -0.34 1.00 
X11|10.07 0.21 0.38 0.08 -0.02 0.00 0.10 0.44 -0.16 0.23 1.00 
X1210.52 0.41 0.35 0.53 0.48 0.38 0.44 0.30 -0.05 0.50 0.24 1.00 
X13|10.77 0.47 0.41 0.79 0.79 0.69 0.67 0.32 0.23 0.31 0.10 0.62 1.00 
X1410.25 0.17 0.64 0.27 0.27 0.14 0.16 0.51 0.21 0.15 0.31 0.17 0.26 1.00 
X15|10.51 0.35 0.58 0.57 0.51 0.26 0.38 0.51 0.15 0.29 0.28 0.41 0.50 0.63 1.00 
X16|0.21 0.16 0.51 0.26 0.23 0.00 0.12 0.38 0.18 0.14 0.31 0.18 0.24 0.50 0.65 1.00 





解 : 首先 输入 相关 和 窍 阵 ， 再 用 princomp() 对 相关 和 矩阵 作 主 成 分 分 析 ， 最 后 
画 出 各 变量 在 第 一 、 第 二 主 成 分 下 的 散 点 图 (程序 名 : ”exam0902.R) 
#### 输入 数据 ， 按 下 三 角 输 入 ， 构 成 向 量 

















x<-c(1.00, 
0.79，1.00， 
0.36，0.31，1.00， 
0.96，0.74，0.38，1.00， 
0.89，0.58，0.31，0.90，1.00， 
0.79，0.58，0.30，0.78，0.79，1.00， 
0.76，0.55，0.35，0.75，0.74，0.73，1.00， 
0.26，0.19，0.58，0.25，0.25，0.18，0.24，1.00， 
0.21，0.07，0.28，0.20，0.18，0.18，0.29,-0.04，1.00， 
0.26，0.16，0.33，0.22，0.23，0.23，0.25，0.49,-0.34，1.00， 
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0.07，0.21，0.38，0.08,-0.02，0.00，0.10，0.44,-0.16，0.23， 
1.00， 
0.52，0.41，0.35，0.53，0.48，0.38，0.44，0.30,-0.05，0.50， 
0.24，1.00， 
0.77，0.47，0.41，0.79，0.79，0.69，0.67，0.32，0.23，0.31， 
0.10，0.62，1.00， 

0.25, 0.17, 0.64, 0.27, 0.27, 0.14, 0.16, 0.51, 0.21, 0.15, 
0.31，0.17，0.26，1.00， 
0.51，0.35，0.58，0.57，0.51，0.26，0.38，0.51，0.15，0.29， 
0.28，0.41，0.50，0.63，1.00， 
0.21，0.16，0.51，0.26，0.23，0.00，0.12，0.38，0.18，0.14， 
0.31，0.18，0.24，0.50，0.65，1.00) 


#### 输入 变量 名 称 

nles eo Cr, mo, Ua Mdm WB MAO, M7 RE MX 
由 

#### 将 矩阵 生成 相关 矩阵 


R<-matrix(0, nrow=16, ncol=16, dimnames=list (names, names)) 
for (i in 1:16){ 
for (j in 1:i){ 
R[i,j]<-x[(i-1)*i/2+j]; R[j,i]<-R[i,j] 





} 
#### 作 主 成 分 分 析 
pr<-princomp (covmat=R); load<-loadings (pr) 
#### 画 散 点 图 
plot(load[,1:2]); text(load[,1], load[,2], adj=c(-0.4, 0.3)) 
得 到 的 图 形 由 图 9.3 所 示 . 

图 9.3 中 左上 角 的 点 看 成 一 类 , 它们 是 “长 ”类 , 即 身 高 (Xi1) 、 坐 高 (X2) 、 
头 高 (X4) 、 裤 长 (Xs) 、 下 档 (X6) 、 手 长 (X7) 、 袖 长 (X13). 

右 下 角 的 点 看 成 一 类 ， 它 们 是 “ 围 ” 类 ， 即 身 胸围 (Xs) 、 领 围 (Xs) 、 肩 厚 
(Xu) 、 肋 围 (X14s) 、 腰 围 (Xi5) 、 腿 肚 (X16). 




















514 第 九 章 应 用 多 元 分 析 (IT) 











o6 
cS 本 05 of 
02 
一 | o13 
09 

Ey “ed 
N 口 o12 
E 
Q bp 
OO 5 | 

G o10 

口 一 | 

[ 

co o15 

口 二 二 

| 03 

og8014016 el 
T T T T T T 
—0.35 —0.30 —0.25 —0.20 —0.15 -0.10 
Comp.1 


图 9.3: 16 个 变量 在 第 一 、 第 二 主 成 分 下 的 散 点 图 

中 间 的 点 看 成 一 类 , 为 体形 特征 指标 , 即 前 胸 (X9)、 后 育 (X10) 、 肩 宽 (X12). 

2. 主 成 分 回归 

在 回归 分 析 一 章 中 ， 曾 经 讲 过 ， 当 目 变 量 出 现 多 重 共 线性 时 ， 经 典 回 归 方 法 
作 回归 系数 的 最 小 二 乘 估 计 , 一 般 效果 会 较 差 , 而 采用 主 成 分 回归 能 够 克服 直接 
回归 的 不 足 . 下 面 用 一 个 例子 来 说 明 如 何 作 主 成 分 回归 ,并 且 是 如 何 殉 服 经 典 回 
归 的 不 足 . 
例 9.3 (法 国 经 济 分 析 数 据 ) 

考虑 进口 总 额 了 与 三 个 自 变量 : 国内 总 产值 Xi, 存储 量 六 2, 总 消费 量 Xs( 单 
位 为 10 亿 法 妇 ) 之 间 的 关系 ， 现 收集 了 1949 年 至 1959 年 共 11 年 有 数据 ， 如 
表 9.3 所 示 . 试 对 此 数据 作 经 典 回归 分 析 和 主 成 分 回归 分 析 . 

解 : 输入 数据 (采用 数据 框 形式 ), 再 用 一 般 线性 回归 方法 作 回 归 分 析 (程序 
和 名: ”exam0903.R). 
#### 用 数据 框 的 形式 输入 数据 
> conomy<-data.frame( 


xl=c(149.3，161.2，171.5，175.5，180.8，190.7， 
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表 9.3: 法 国 经 济 分 析 数 据 


15.9 
16.4 
19.0 
19.1 
18.8 
20.4 
22:7 
26.5 


Oi co ~ GD oO 本 WW DD 


28.1 


上 一 
CD 


27.6 





一 
jt 


26.3 


202.1，212.4，226.1，231.9，239.0) ， 
x2=c(4.2, 4.1, 3.1, 3.1, 1.1, 2.2, 2.1, 5.6, 5.0, 5.1, 0.7)， 
x3=c(108.1，114.8，123.2，126.9，132.1，137.7， 
146.0，154.1，162.3，164.3，167.6) ， 
y=c(15.9，16.4，19.0，19.1，18.8，20.4，22.7， 
26.5，28.1，27.6，26.3) 
) 


#### 作 线 性 回归 


> lm.sol<-lm(y“x1i+x2+x3,，data=conomy) 
> summary (lm.sol1) 
Call: 


lm(formula =y ~ xi + x2 + x3, data = conomy) 


Residuals: 


Min 1Q Median 3Q Max 


516 第 九 章 应 用 多 元 分 析 (]) 
-0.52367 -0.38953 0.05424 0.22644 0.78313 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -10.12799 1.21216 -8.355 6.9e-05 +*** 


x1 -0.05140 0.07028 -0.731 0.488344 

X2 0.58695 0.09462 6.203 0.000444 *** 

X3 0.28685 0.10221 2.807 0.026277 六 

Signif. codes: 0 ’***’ O.001 ’**’ O.01 ’*’” 0.05 .0.1 ”1 工 


Residual standard error: 0.4889 on 7 degrees of freedom 
Multiple R-Squared: 0.9919 ， Adjusted R-squared: 0.9884 
F-statistic: 285.6 on 3 and 7 DF, p-value: 1.112e-07 


从 计算 结果 可 以 看 出 ， 按 三 个 变量 得 到 回归 方程 





Y = —10.12799 — 0.05140X1 十 0.58695X, 十 0.28685Xs. (9.14) 


仔细 分 析 方 程 (9.14), 发 现 它 并 不 合理 . 回 到 问题 本 身 ，Y 是 进口 量 ， Xi 是 国 
内 总 产值 ， 而 对 应 系数 的 符号 确 为 负 ， 也 就 是 说 ， 国 内 的 总 产值 越 高 ， 其 进口 量 
确 越 少 ， 这 与 实际 情况 是 不 相符 的 ， 问 其 原因 ， 三 个 变量 存在 着 多 重 共 线性 (后 
面 我 们 将 会 看 到 最 小 特征 值 接近 于 0). 

为 克服 多 重 共 线 性 的 影响 ， 对 变量 作 作 主 成 分 回归 . 先 作 主 成 分 分 析 . 
#### 作 主 成 分 分 析 


> conomy.pr<-princomp(“x1+x2+x3, data=conomy, cor=T) 








> summary(conomy .pr, loadings=TRUE) 
Importance of components: 

Comp.1 Comp.2 Comp.3 
Standard deviation 1.413915 0.9990767 0.0518737839 
Proportion of Variance 0.666385 0.3327181 0.0008969632 
Cumulative Proportion 0.666385 0.9991030 1.0000000000 
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Loadings: 


Comp .1 Comp.2 Comp.3 


x1 0.706 0.707 
X2 -0.999 
X3 0.707 -0.707 


前 两 个 主 成 分 已 达到 99% 的 贡献 率 . 第 1 主 成 分 是 关于 国内 总 产值 和 总 消 
因此 称 第 1 主 成 分 为 产销 因子 . 第 2 主 成 分 只 与 存储 量 有 关 ， 称 为 存储 因 
注意 ， 


由 跟 


Ms = 0.0518737839? = 0.002690889 ~ 0， 


所 以 变量 存在 着 多 重 共 线性 . 

下 面 作 主 成 分 回归 . 首先 计算 样本 的 主 成 分 的 预测 值 ， 并 将 第 1 主 成 分 的 预 
测 值 和 第 2 主 成 分 的 预测 值 存放 在 数据 框 conomy 中 ， 然 后 再 对 主 成 分 作 回 归 分 
析 ， 其 命令 格式 如 下 
#### 预测 测 样本 主 成 分 ， 并 作 主 成 分 分 析 


> pre<-predict (conomy .pr) 








> conomy$z1<-pre[,1] ; conomy$z2<-pre[,2] 
> lm.sol<-lm(y“z1+z2, data=conomy) 

> summary (lm.so1) 

Call: 


lm(formula = y ~ zi + 22, data = conomy) 


Residuals : 
Min 1Q Median 3Q Max 
-0.89838 -0.26050 0.08435 0.35677 0.66863 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 21.8909 0.1658 132.006 1.21e-14 *** 
Z1 2.9892 0.1173 25.486 6.02e-09 *** 


Z2 -0.8288 0.1660 -4.993 0.00106 ** 
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Residual standard error: 0.55 on 8 degrees of freedom 
Multiple R-Squared: 0.9883, Adjusted R-squared: 0.9853 
F-statistic: 337.2 on 2 and 8 DF, p-value: 1.888e-08 


回归 系数 和 回归 方程 均 通过 检验 ， 而 且 效 果 显著 . 即 得 到 回归 方程 


Y = 21.8909 + 2.98922* — 0.82882:. 


上 述 方程 得 到 是 响应 变量 与 主 成 分 的 关系 , 但 应 用 起 来 并 不 方便 ,还 是 希望 
得 到 响应 变量 与 原 变 量 之 间 的 关系 . 由 于 ， 


Y = B+PiZi + P23, 
ZI 二 QilX1 十 ai2X2 十 Qi3X3， 
让 (AX1 一 歼 i2( 汪 2 一 人 i3( 六 3 一 芒 | 
oa 到 ea- 到 aaa- 到 ,1 


V 5S11 V 522 V 333 











所 以 ， 


Q1171 ，Q1272 ， Q1373 Q2171 ， Q2272 ， Q2373 
CN -oo 
! V 511 V 522 V333 V 511 V 322 V 333 


(Orall 十 Ba21) (Dia12 + 3a22) (Gra1s + Pa23) 











+ i+ Xs 二 去 
VS11 V 522 V 333 , 
= Pot+ PXi+ boX2 + PaXs, (9.15) 


其 中 


px px ATI ，Ql272 ，Q1373 、 orf Q2171 ，Q2272  Q23T3 
Po = fi 8 (++) 0019 
po 1,2,3 (9.17) 
按照 式 (9.16)-(9.17) 编写 计算 系数 的 函数 
#### 作 变 换 ， 得 到 原 坐 标 下 的 关系 表达 式 


> beta<-coef(lm.sol); A<-loadings(conomy .pr) 














> x.bar<-conomy.pr$center; x.sd<-conomy.pr$scale 
> coef<-(beta[2]*A[,1]+ beta[3]*A[,2])/x.sd 


> beta0 <- beta[1]- sum(x.bar * coef) 
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在 程序 中 ， coef 画 数 是 提取 回归 系数 ， loadings 是 提取 主 成 分 对 于 的 特征 向 
量 ，conomy .pr$center 是 数据 的 中 心 , 也 就 是 数据 X 的 均值 ，conomy.pPr$scale 
是 数据 的 标准 差 ， 即 sz 的 开 方 . 因此 得 到 相应 的 系数 


> c(beta0, coef) 


(Intercept) x1 X2 X3 
-9.13010782 0.07277981 0.60922012 0.10625939 
即 回归 方程 为 


Y = —9.13010782 十 0.07277981Xi 十 0.60922012X, 十 0.10625939X3a3.， (9.18) 


此 时 ， 对 应 X1, X2, Xs 的 系数 均 为 正 数 ， 比 原 回 归 方程 (9.14) 更 合理 . 


9.2 ”因子 分 析 


因子 分 析 (factor analysis) 是 主 成 分 分 析 的 推广 和 发 展 ， 它 也 是 多 元 统计 分 
析 中 降 维 的 一 种 方法 , 是 一 种 用 来 分 析 隐 藏 在 表面 现象 背后 的 因子 作用 的 一 类 统 
计 模 型 . 因子 分 析 是 研究 相关 阵 或 协 方差 阵 的 内 部 依赖 关系 ， 它 将 多 个 变量 综合 
为 少数 几 个 因子 ， 以 再 现 原始 变量 与 因子 之 间 的 相关 关系 . 

因子 分 析 起 源 于 20 世纪 初 ， K. Pearson 和 C. Spearman 等 学 者 为 定义 和 
测定 智力 所 作 的 统计 分 析 . 目前 因子 分 析 在 心理 学 、 社 会 学 、 经 济 学 等 学 科 取得 
了 成 功 的 应 用 . 





9.2.1 35| 例 


下 面 用 几 个 例子 说 明 如 何 用 因子 分 析 来 构造 因子 模型 
例 9.4 为 了 解 学 生 的 学 习 能 力 ， 观 测 了 nn 个 学 生 的 p 个 科目 的 成 绩 (分 数 ) 用 
Xi X2 Xp 表示 p 个 科目 (例如 人 代数、 几何、 语文 、 英 语 、 政 治 ，………), X(i) = 
(Til, Ti2, ap) (i = 1,2,.…,n) 表示 第 i 个 学 生 的 p 科目 的 成 绩 ， 现 要 分 析 
主要 由 哪些 因素 决定 学 生 的 学 习 能 

现 对 这 些 资料 进行 归纳 分 析 ， 可 以 看 出 各 个 科目 (变量 ) 由 两 部 分 组 成 





Xi = aif + 6i, i1= 1,2,...,p, (9.19) 
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其 中 了 是 对 所 有 Xi(i = 1,2,.…,p) 都 起 作用 的 公共 因子 (common factor), 它 表 
示 智 能 高 低 的 因子 ， 系 数 a; 称 为 因子 载荷 (loading); s; 是 科目 (变量 )X; 特有 的 
特殊 因子 (specific factor). 这 就 是 一 个 最 简单 的 因子 模型 . 

进一步 ， 可 把 简单 因子 模型 推广 到 多 个 因子 的 情况 ， 即 科目 X 所 有 的 因子 
有 m 个 ， 如 数学 推导 因子 、 记 忆 因 子 、 计 算 因 子 等 ,分别 记 为 有 i, 2,…, fm, 即 











XX; 一 ail 万 | ai2f2 .4 aim fm 十 Ei, 1 1, 2 i (9.20) 





用 这 m 个 不 可 观测 的 互 不 相关 的 公共 因子 及, 户 …… fn( 也 称 为 潜 因 子 ) 和 一 个 
特殊 因子 =s: 来 描述 原始 可 测 的 相关 变量 (科目 )Xi, 六 2, ……, XX,, 并 解释 分 析 学 生 
的 学 习 能 力 . 它们 的 系数 auit 4i2,…, qip 称 为 因子 载荷 ， 表 示 第 ;个 科目 在 和 m 个 
方面 的 表现 . 这 就 是 一 个 因子 模型 . 

例 9.5 Linden 对 二 次 大 战 以 来 奥林匹克 十 项 全 能 的 得 分 作 研 究 ， 他 收集 了 160 
组 数据 ， 以 XX1, 2,……, X10 分 别 表 示 十 项 全 能 的 标准 得 分 ， 这 里 十 项 全 能 依次 
是 : 100 米 短 跑 、 跳 远 、 跳 高 、 400 米 跑 、 110 米 跨 栏 、 铁 饼 、 撑 杆 跳高 、 标 
枪 、 1500 米 跑 ， 现 要 分 析 主 要 由 哪些 因素 决定 十 项 全 能 的 成 绩 ， 以 此 可 用 来 指 
导 运 动员 的 选拔 . 

对 于 这 十 项 得 分 ， 基 本 上 可 以 归结 于 短跑 速度 、 爆 发 性 臂力 、 爆 发 性 腿 力 和 
耐力 四 个 方面 ,每 一 方面 都 称 为 一 个 因子 ， 因 此 该 类 问题 可 用 因子 分 析 模 型 去 处 
理 . 

例 9.6 考察 人 体 的 五 项 生理 指标 : 收缩 压 (XIi) 、 舒张 压 (Xs) 、 心 跳 间隔 (Xs) 、 
呼吸 间隔 (X4) 和 天 下 温度 (X5). 从 这 些 指标 考察 人 体 的 健康 状况 . 

从 生理 学 的 知识 可 知 ， 这 五 项 指标 是 受 植 物 神经 支配 的 ,植物 神经 又 分 为 交 
感 神经 和 副交感 神经 ， 因 此 这 五 项 指标 至 少 受 到 两 个 公共 因子 的 影响 ,也 可 用 因 
子 分 析 的 模型 去 处 理 . 

通过 以 上 几 个 例子 可 以 看 到 ， 因 子 分 析 的 主要 应 用 有 两 个 方面 , 一 是 寻求 基 
本 结构 ， 简 化 观测 系统 ， 将 具有 错综复杂 关系 的 对 象 (变量 或 样本 ) 综合 为 少数 
几 个 因子 (不 可 观测 的 随机 变量 ), 以 再 现 因 子 与 原始 变量 之 间 的 内 在 联系 ， 二 是 
用 于 分 类 ， 对 于 p 个 变量 或 n 个 样本 进行 分 类 . 

因子 分 析 根 据 研究 对 象 的 不 同 可 以 分 为 及 型 和 Q 型 因子 分 析 . 及 型 因子 
分 析 研 究 变 量 (指标 ) 之 间 的 相关 关系 ， 通 过 对 变量 的 相关 阵 或 协 方差 阵 内 部 结 
构 的 研究 ， 找 出 控制 所 有 变量 的 几 个 公共 因子 (或 称 主因 子 、 潜 在 因子 ), 用 以 对 








9.2 因子 分 析 521 


变量 或 样本 进行 分 类 . Q 型 因子 分 析 研 究 样本 之 间 的 相关 关系 ， 通 过 对 样本 的 
相似 矩阵 内 部 结构 的 研究 找 出 控制 样本 的 几 个 主要 因素 (或 称 为 主因 子 ). 这 两 种 
因子 分 析 的 处 理 方法 是 一 样 的 ， 只 是 出 发 点 不 同 . R 型 从 变量 的 相关 阵 出 发 ， 
Q 型 从 样本 的 相似 矩阵 出 发 . 对 一 批 观 测 数据 ， 可 以 根据 实际 问题 的 需要 来 决定 
采用 哪 一 种 类 型 的 因子 分 析 . 
9.2.2 ”因子 模型 

1. 数学 模型 

设 X = (Xi,X2,…,Xp) 是 可 观测 的 随机 向 量 ， 且 

E(X) 二 从 二 (AD /1L2) Tay Var(X) 三 = (0 )pxp: 


因子 分 析 的 一 般 模 型 为 




















Xi1— M1=anfit+aw2ft t+amfmt él 
Xs 一 Ha = Afit 422f2 tt aomfm + E2 

. (9.21) 
X, 一 Hp 二 api fi 下 ap2f2 es Gprivfrm TEp 

















其 中 刻 , f2,…, fm (m < p) 为 公共 因子 ， ss ……sp 为 特殊 因子 ， 它 们 都 是 
不 可 观测 的 随机 变量 .公共 因子 及, f2,……, fm 出 现在 每 一 个 原始 变量 Xi(i = 
1, 2,.……,p) 的 表达 式 中 ， 可 理解 为 原始 变量 共同 具有 的 公共 因素 ， 每 个 公共 因子 
fj(j = 站 2 70) 一 般 至 少 对 两 个 原始 变量 有 作用 ， 和 否则 它 将 归 入 特殊 因子 . 
每 个 特殊 因子 ei(i = 1,2,…,p) 仅仅 出 现在 与 之 相应 的 第 i 个 原始 变量 X; 的 表 
达 式 中 ， 它 只 对 这 个 原始 变量 有 作用 . 可 将 式 (9.21) 写成 矩阵 表示 形式 











X=h+AFt+tse, (9.22) 

其 中 fF = (fi， fo, Wt) Fa 为 公共 因子 向 量 ， E 一 (E1， E2) ,Ep) 为 特殊 因子 向 
量 ，4 = (aij)pxm 为 因子 载荷 矩阵 ， 通 稼 假设 

BY a Co er (9.23) 

Ele 0, Var(e) = D = diag(o?,02,...,07), (9.24) 

Cov(F,e) = 0. (9.25) 


NE 
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由 上 述 假定 可 以 看 出 , 公共 因子 彼此 不 相关 且 具 有 单位 方 阵 ， 特殊 因子 也 彼此 不 
相关 且 和 公共 因子 也 不 相关 . 
2. 因子 模型 的 性 质 
(1) 纪 的 分 解 
= AA "+D. (9.26) 
(2) 模型 不 受 单位 的 影响 . 若 X* = CX, 则 有 
X* 二 J 十 AP? 二 +e*， 
其 中 w= Ch, A*==CA,rF*=F,e*=0Oe. 
(3) 因子 载荷 不 是 惟一 的 . 设 工 是 一 7 阶 正 交 甜 阵 , 令 4* = 47 fF* = 了 TY78,， 
则 模型 (9.22) 可 表示 为 
X 三 人 十 4 十 E. (9.27) 
因子 载荷 矩阵 不 惟一 对 实际 应 用 是 有 好 处 的 , 通常 利用 这 一 点 , 通过 因子 旋 
转 ， 使 得 新 因子 有 更 好 的 实际 意义 . 
3. 因子 载荷 矩阵 的 统计 意义 
(1) 
Cov(X,F)=A 或 Cov(X;, fj) = aij. (9.28) 
即 因子 载荷 ui 是 第 i 个 变量 与 第 7 个 公共 因子 的 相关 系数 .由 于 X; 是 fi, fo， 
Sy hn 的 线性 组 合 ， 所 以 系数 Qil) Qi2) Qim 是 用 来 度量 Ai 可 由 hi, ho, Se es 
线性 组 合 表示 的 程度 . 
(2) 令 及 = a%, 则 有 
j=1 





ai 一 了 2 十 ao i=1,2,...,%. (9.29) 


及 反映 了 公共 因子 对 原始 变量 X; 的 影响 ， 可 以 看 成 是 公共 因子 对 Xi 的 方差 贡 
献 ， 称 为 变量 X; 的 共同 度 (communality) 或 共性 方差 (common variance); 而 oz 
是 特殊 因子 s 对 X; 的 方差 贡献 ， 称 为 变量 X; 特殊 方差 (specifie variance). 当 
X 为 各 分 量 已 标准 化 的 随机 变量 (0i; = 1), 此 时 有 


ho=1, i=1,2,...,p. (9.30) 
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p 
(3) 令 97 = 2%, 则 有 


D vat = > 十 > (9.31) 


97 反映 了 公共 因子 fi 对 XX, Xo,…, Xj 的 影响 ,是 衡量 公共 因子 方 重要 性 的 一 
个 尺度 ， 可 视 为 公共 因子 f; 对 Xl, 从 2， Xp 的 总 方差 贡献 ， 
9.2.3 ”参数 估计 


设 X01), 闵 (2),… ,XX(n) 是 一 组 p 维 样本 ， 其 中 XG) = (za, Yio,… ,Xin) 则 
4 和 > 可 分 别 估计 为 


:下 
SX Xi 或 5 一 
Re @ 或 





— = 一 
Qo=X) (30605 2) 


i=1 





n—1 
为 了 建立 因子 模型 ， 首 先 要 估计 因子 载荷 矩阵 4 = (aij)pxm 和 特殊 方差 算 阵 
D = diag(of,03,…,03). 常用 的 参数 估计 方法 有 如 下 三 种 ， 主 成 分 法 、 主 因子 
法 和 极 大 似 然 法 . 

1. 主 成 分 法 

设 样本 的 协 方差 阵 5S 的 特征 值 为 Xi > 和 2 > … > Xp > 0, 相应 单位 正 交 特 
征 向 量 为 1,72,…… ,lp, 则 5S 有 谱 分 解 式 


了 
8 三》 
i=1 


当 最 后 p 一 m 个 特征 值 较 小 时 ， 5 可 近似 地 分 解 成 























S = NU + Amlnlh t+ Mim t+ + Mplpld 
~ NNT+ + Nani+D 
= AA +D, (9.32) 
其 中 
es (9.33) 
成:、 告 diag(o1, 02,.**, 029)) (9.34) 


go = a D0 = (9.35) 
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式 (9.33)-(9.35) 给 出 的 A 和 D 就 是 因子 模型 的 一 个 解 . 载 稿 矩阵 4 中 的 第 
7 列 和 XX 的 第 7 个 计 成 分 的 系数 相差 一 个 倍数 VAj(7 = 1,2,…,m)， 故 由 式 
(9.33)-(9.35) 给 出 的 这 个 解 称 为 因子 模型 的 主 成 分 解 . 
当 相关 变量 所 取 单 位 不 同时 , 和 常常 先 对 变量 标准 化 ,标准化 变量 的 样本 协 方 
差 阵 就 是 原始 变量 的 样本 相关 阵 R, 再 用 RR 代替 5, 与 上 类 似 , 即 可 得 主 成 分 解 . 
下 面 写 出 主 成 分 法 的 及 程序 (程序 名 : ”factor.analy1.R) 


factor.analy1<-function(S, m){ 
p<-nrow(S); diag_S<-diag(S); sum_rank<-sum(diag_S) 
rowname<-paste("X", 1:p, sep="") 
colname<-paste("Factor", 1:m, sep="") 
A<-matrix(0, nrow=p, ncol=m, 
dimnames=list (rowname, colname)) 
eig<-eigen(S) 
for (i in 1:m) 
A[,i]j<-sgqrt(eig$values [i])*eig$vectors[,i] 
h<-diag (A%*%t (A)) 
rowname<-c("SS loadings",'"Proportion Var",'"Cumulative Var'") 
B<-matrix(0, nrow=3, ncol=m, 
dimnames=list (rowname, colname)) 
for (i in 1:m){ 
B[1,i]<-sum(A[,i] “2) 
B[2,i]<-B[1,i]/sum_rank 
B[3,i]<-sum(B[1,1:i])/sum_rank 
} 
method<-c("Principal Component Method") 
list(method=method, loadings=A, 
var=cbind(common=h, spcific=diag_S-h), B=B) 
} 
函数 输入 值 8 是 样本 方差 阵 或 相关 甜 阵 ， nm 是 主因 子 的 个 数 ， 函 数 的 输出 值 是 
列表 形式 ， 其 内 容 有 估计 参数 的 方法 ( 主 成 分 法 ), 因子 载 集 (loadings), 共性 方 
差 和 特殊 方差 ， 以 及 因子 尸 对 变量 X 的 贡献 、 贡 献 率 和 累积 贡献 率 . 
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例 9.7 对 5 个 国家 和 地 区 的 男子 径 赛 记 录 作 统计 , 每 位 运动 员 记 录 8 项 指标 : 
100 米 跑 (X1) 、200 米 跑 (X2) 、400 米 跑 (X3) 、800 米 跑 (X4) 、1500 米 跑 


(Xs) 、 5000 米 跑 (X6) 、 


Xl 
1.000 
0.923 
0.841 
0.756 
0.700 
0.619 
0.633 
0.520 





XX2 


1.000 
0.851 
0.807 
0.775 
0.695 
0.697 
0.596 


10000 米 跑 (X7) 、 马 拉 松 (Xsg). 8 项 指标 的 相关 拢 
阵 及 如 表 9.4 所 示 . 取 m 二 2, 用 主 成 分 法 估计 因子 载荷 和 共性 方差 等 指标 . 


表 9.4: 16 项 身体 指标 数据 的 相关 矩阵 


X3 


1.000 
0.870 
0.835 
0.779 
0.787 
0.705 


Xa 


1.000 
0.918 
0.864 
0.869 
0.806 


Xs X6 六 7 Xs 


1.000 

0.928 1.000 

0.935 0.975 1.000 

0.866 0.932 0.943 1.000 


解 : 输入 相关 矩阵， 用 编写 的 函数 factor.analy1() 主 成 分 法 估计 载荷 和 


相关 指标 (程序 名 : 


x<-c(1.000, 
i923 
.841,， 
.756 ， 
.700 ， 
.619 ， 
.633 ， 
0.520， 


O 口 口 口 口 oO 


names<-c("X1", 


R<-matrix(0, nrow=8, 


exam0907 .BR) 
1.000 ， 
0.851，1.000， 
0.807，0.870， 
0.775; 835， 
0.695，0.779， 
0.697，0.787， 
0.596，0.705， 
"X2"，"X3"， 


for (i in 1:8){ 


for (j in 1:i){ 


1.000， 
0.918， 
0.864， 
0.869， 
0.806, 

a 


1.000， 

0.928，1.000， 
0.935，0.975，1.000， 
0.866，0.932，0.943，1.000) 
Re TY 


ncol=8, dimnames=list (names, names)) 


R[i,j]<-x[(i-1)*i/2+j]; R[j,i]<-R[i,j] 
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上 


source("factor.analy1.R") 


fa<-factor.analyi(R, m=2); fa 


得 到 
$method 
[1] "Principal Component Method" 
$loadings 
Factor1 Factor2 


X1 -0.8171700 -0.53109531 
X2 -0.8672869 -0.43271347 
X3 -0.9151671 -0.23251311 
X4 -0.9487413 -0.01184826 


X5 -0.9593762 0.13147503 
X6 -0.9376630 0.29267677 
X7 -0.9439737 0.28707618 
X8 -0.8798085 0.41117192 
$var 

common spcific 
X1 0.9498290 0.05017099 
X2 0.9394274 0.06057257 
X3 0.8915931 0.10840689 
X4 0.9002505 0.09974954 
X5 0.9376883 0.06231171 
X6 0.9648716 0.03512837 
X7 0.9734990 0.02650100 
X8 0.9431254 0.05687460 
$B 


Factorl1 Factor2 
SS loadings 6.6223580 0.8779264 
Proportion Var 0.8277947 0.1097408 
Cumulative Var 0.8277947 0.9375355 
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若 记 
E=S-(AA'+D)= 


(eij)pxp; 


可 以 证 明 ， 


了 
3 < n+ +A (9.36) 


当 m 选择 适当 ， 则 近似 公式 (9.32) 的 误差 平方 和 Q(m) 很 小 . 
计算 出 例 9.7 的 Cn) 值 . 


> E<- R-fa$loadings %*% t(fa$loadings)-diag(fa$var[,2]) 
> sum(E“2) 
[1] 0.01740023 


公 因 子 个 数 m 的 确定 方法 一 般 有 两 种 ， 一 是 根据 实际 问题 的 意义 或 专业 理 
论 知识 来 确定 ;二 是 用 确定 主 成 分 个 数 的 原则 ， 选 m 为 满足 : 


m p 
Dy /Fx >P 
i ii 


的 最 小 个 数 (比如 取 一 >0.70 且 古 < 了 1). 
2. 主因 子 法 
主因 子 法 是 对 主 成 分 法 的 修正 , 这 里 假定 变量 已 经 标准 化 . 设 R= 447 十 万 ， 


vt 


oS 
由 








则 
R-D= 447 = RR’, 





称 为 约 相关 阵 (reduced correlation matrix). 易 见 ， R* 中 对 角 线 元 素 是 好 ,而 不 
是 1, 非 对 角 线 元 素 与 R 中 是 完全 一 样 的 ， 并 且 R* 也 一 定 是 非 负 窍 阵 . 
设 人 2 是 特殊 方差 oz 的 一 个 合适 的 初始 估计 ， 则 约 相关 和 矩阵 可 估计 为 





D2 
hs A E> TIp 
7 
入 To1 h2 为 仇 训 Top 
* 
R=|. i 
72 
Tpl Tp2 “i he; 


其 中 及 =1 一 人 7 是 及 的 初始 估计 . 
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设 尿 的 前 m 个 特征 值 依次 为 Xi > 入 > … > 各 ,> 0, 相应 的 单位 正 交 特 
征 向 量 为 六 个 ， 则 有 近似 分 解 式 : 


R* = 447， (9.37) 
其 中 
A= (Vi 入 区 是 (9.38) 
令 
j=1 


则 和 4 和 DD= diag(9?, 人 3,…, 人 52) 为 因子 模型 的 一 个 解 , 这 个 解 就 称 为 主因 子 解 . 
如 果 希 望 求 得 拟 合 程度 更 好 的 解 , 则 可 以 采用 迭代 的 方法 , 即 式 (9.39) 中 的 
人 2 再 作为 特殊 方差 的 初始 估计 ， 重 复 上 述 步 又 ， 直 至 解 稳 定 为 止 . 
“与 主 成 分 法 类 似 ， 主 因子 法 中 的 R 也 可 以 换 成 样本 方差 阵 3, 只 不 过 此 时 
hi? = si 一 人 2 
按照 主因 子 法 的 思想 编写 相应 的 R 程序 (程序 名 ;factor.analy2.R) 


factor.analy2<-function(R, m, d){ 





p<-nrow(R); diag_R<-diag(R); sum_rank<-sum(diag_R) 
rowname<-paste("X", 1:p, sep="") 
colname<-paste("Factor", 1:m, sep="") 
A<-matrix(0, nrow=p, ncol=m, 
dimnames=list (rowname, colname)) 

kmax=20; k<-1; h <- diag_R-d 
repeat{ 

diag(R)<- h; hi<-h; eig<-eigen(R) 

for (i in 1:m) 

A[,i]j<-sgqrt(eig$values [i])*eig$vectors[,i] 

h<-diag(A %*% 七 (A) ) 

if ((sqrt(sum((h-h1)°2))<1e-4) |k==kmax) break 

k<-k+1 
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rowname<-c("SS loadings",'"Proportion Var",'"Cumulative Var'") 
B<-matrix(0, nrow=3, ncol=m, 
dimnames=list (rowname, colname)) 
for (i in 1:m){ 
B[1,i]<-sum(A[,i] “2) 
B[2,i]<-B[1,i]/sum_rank 
B[3,i]<-sum(B[1,1:i])/sum_rank 
} 
method<-c("Principal Factor Method'") 
list(method=method, loadings=A, 
var=cbind (common=h, spcific=diag_R-h) ,B=B,iterative=k) 
} 
函数 输入 值 R 是 样本 相关 和 拖 阵 或 样本 方差 官 阵 ，m 是 主因 子 的 个 数 ，d 是 特殊 方 
差 的 估计 值 函数 的 输出 值 是 列表 形式 ， 其 内 容 有 估计 参数 的 方法 (主因 子 法 )， 
因子 载荷 (loadings), 共性 方差 和 特殊 方差 ， 因 子 了 对 变量 X 的 贡献 、 贡 献 率 
和 累积 贡献 率 ， 以 及 求解 的 闪 代 次 数 ， 
例 9.8 取 m = 2, 特殊 方差 的 估计 值 52 为 
0.123, 0.112, 0.155， 0.116， 0.073， 0.045， 0.033， 0.095， 
用 主因 子 法 估计 例 9.7 因子 载荷 和 共性 方差 等 指标 . 
解 : 
> d<-c(0.123，0.112，0.155，0.116，0.073，0.045，0.033，0.095) 
> Source("factor .analy2.R") 
> fa<-factor.analy2(R，m=2，d); fa 
$method 
[1] "Principal Factor Method" 
$loadings 
Factorl1 Factor2 
X1 -0.8123397 -0.5138770 
X2 -0.8610033 -0.4156335 
X3 -0.9005036 -0.2105394 
X4 -0.9370464 -0.0178458 
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X5 -0.9545376 0.1186825 
X6 -0.9384689 0.2861327 
X7 -0.9470951 0.2858694 
X8 -0.8728340 0.3770009 


$var 

common spcific 
X1 0.9239653 0.07603473 
X2 0.9140779 0.08592213 
X3 0.8552337 0.14476635 
X4 0.8783744 0.12162560 
X5 0.9252275 0.07477251 
X6 0.9625958 0.03740416 
X7 0.9787105 0.02128951 
X8 0.9039690 0.09603103 
$B 


Factorl1 Factor2 
SS loadings 6.54088 0.8012746 
Proportion Var 0.81761 0.1001593 
Cumulative Var 0.81761 0.9177692 
$iterative 
[1] 16 
用 了 16 次 迭代 得 到 稳定 解 ， 再 计算 Q(m)， 
> E<- R-fa$loadings %*% t(fa$loadings)-diag(fa$var[,2]) 
> sum(E°2) 
[1] 0.005421902 
要 优 于 主 成 分 法 . 
特殊 方差 o7 的 常用 初始 估计 方法 有 以 下 几 种 : 
由 取 守 =1 其 中 是 RV 的 第 i 个 对 角 线 元 素 . 
(四 取 肛 =maxlral 此 时 ， 侣 一 1 一 及 
(3) 取 肥 =1, 此 时 ，5?=0. 


3. 极 大 似 然 法 
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设 公共 因子 已 ~ Nm(0, 站 ,特殊 因子 = ~ N,(0, 7), 且 相 互 独立 ， 那么 可 以 得 
到 因子 载 答 矩阵 和 特殊 方差 的 极 大 似 然 估计 . 设 p 维 观测 向 量 XXX) 
为 来 自 总 体 N,(1, 允 ) 的 随机 样本 ， 则 样本 的 似 然 函 数 为 1 刀 的 函数 Lu 习 )， 

设 避 = A447 二 DD, 取 4= 叉 , 则 似 然 函 数 L(XX, 447 十 DD) 的 对 数 似 然 函数 
为 4, 的 函数 ， 记 为 2(4, D). 设 (4, D) 的 极 大 似 然 估计 为 (4, D), 即 有 


p(4 万 = maxy(A, D), 


则 4,D 满足 以 下 方程 组 


2 A(I+AP-14), (9.40) 
和 diag ($— AAT) ， (9.41) 
其 中 
区 a _ 
2 (Xa 一 X)(CXa 一 又) 


1 


2 


为 了 保证 方程 组 (9.40) 得 到 惟一 解 ， 可 附加 计算 上 方便 的 惟一 性 条 件 ; 
A DA = 对 角 和 矩阵 . (9.42) 


Joreskog 和 Lawley 等 人 (1967) 提出 了 一 种 较为 实用 的 达 代 法 , 使 极 大 似 然 
法 逐步 被 人 们 采用 . 其 基本 思想 是 ， 先 取 一 个 初始 矩阵 


. /入 2 和 2 和 2 
Do = diag(01, 01, - = 0s) 


现 计算 ho, 计算 4o 的 办 法 是 先 求 D3 “DDG 的 特征 值 901 > Ga > bo 及 相应 
的 特征 向 量 /1 12， er lp. 令 9 = diag(01, 0», ee Oin), L= (4, /2， ey ln) 且 令 


Ao = DiI?2L(O— 1,). (9.43) 


再 由 式 (9.41) 得 到 D1, 然后 再 按 上 述 方法 得 到 A1, 直到 满足 方程 (9.40) 为 止 . 
下 面 是 由 上 述 思 想 编写 的 R 程序 (程序 名 : factor.analy3.R) 
factor.analy3<-function(S, m, d){ 

p<-nrow(S); diag_S<-diag(S); sum_Trank<-sum(diag_S) 


rowname<-paste("X", 1:p, sep="") 
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colname<-paste("Factor", 1:m, sep="") 
A<-matrix(0, nrow=p, ncol=m, 
dimnames=list (rowname, colname)) 
kmax=20; k<-1 
repeat{ 
di<-d; d2<-1/sqrt(d); eig<-eigen(S * (d2 %o% d2)) 
for (i in 1:m) 
A[,i]j<-sgqrt(eig$values[i]-1)*eig$vectors[,i] 
A<-diag(sqrt(d)) %*% A 
d<-diag(S-A%*%t (A)) 
if ((sqrt(sum((d-d1) “2))<1e-4) |k==kmax) break 
k<-k+1 
} 
rowname<-c("SS loadings",'"Proportion Var",'"Cumulative Var'") 
B<-matrix(0, nrow=3, ncol=m, 
dimnames=list (rowname, colname)) 
for (i in 1:m){ 
B[1,i]<-sum(A[,i] “2) 
B[2,i]<-B[1,i]/sum_rank 
B[3,i]<-sum(B[1,1:i])/sum_rank 
} 
method<-c("Maximum Likelihood Method") 
list(method=method, loadings=A, 
var=cbind(common=diag_S-d, spcific=d) ,B=B,iterative=k) 
} 
例 9.9 取 m = 2, 特殊 方差 的 估计 值 52 为 
0.123, 0.112, 0.155， 0.116， 0.073， 0.045， 0.033， 0.095， 
用 极 大 似 然 法 估计 例 9.7 因子 载荷 和 共性 方差 等 指标 . 
解 : 
> d<-c(0.123，0.112，0.155，0.116，0.073，0.045，0.033，0.095) 


> source("factor .analy3.R1") 
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> fa<-factor.analy3(R，m=2，d); fa 
$method 
[1] "Maximum Likelihood Method" 
$loadings 

Factorl Factor2 
[1,] -0.7310172 -0.62009641 
[2,] -0.7919994 -0.54575786 
[3,] -0.8549232 -0.34252454 
[4,] -0.9158820 -0.16063750 
[5,] -0.9580091 -0.02492734 
[6,] -0.9725436 0.14485411 
[7,] -0.9806291 0.14276290 
[8,] -0.9226101 0.24953974 


$var 

common spcific 
X1 0.9189057 0.08109428 
X2 0.9251146 0.07488539 
X3 0.8482167 0.15178334 
X4 0.8646442 0.13535579 
X5 0.9184028 0.08159724 
X6 0.9668237 0.03317631 
X7 0.9820147 0.01798529 
X8 0.9134795 0.08652046 
$B 


Factorl1 Factor2 
SS loadings 6.407848 0.9297541 
Proportion Var 0.800981 0.1162193 
Cumulative Var 0.800981 0.9172002 
$iterative 


[1] 14 


用 了 14 次 迷 代 得 到 稳定 解 . 再 计算 Q(m)， 
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> E<- R-fa$loadings %*% t(fa$loadings)-diag(fa$var[,2]) 
> sum(E“2) 
[1] 0.006710651 


将 上 述 三 种 估计 方法 结合 在 一 起 ， 并 考虑 在 主 成 分 估计 中 介绍 的 因子 个 数 
m 的 选取 方法 ， 和 在 主因 子 法 中 介绍 特殊 方差 9? 初始 估计 方法 . 编写 相应 的 及 
程序 (程序 名 : factor.analy.B) 


factor.analy<-function(S, m=0, 
d=1/diag(solve(S)), method="likelihood"){ 
if (m==0){ 
p<-nrow(X); eig<-eigen(S) 
sum_eig<-sum(diag(S)) 
for (i in 1:p){ 
if (sum(eig$values[1:i])/sum_eig>0.70)+ 


m<-i; break 


中 

source("factor.analy1.R"); source("factor.analy2.R") 

source("factor.analy3.R") 

switch (method, 
princomp=factor.analy1(S, m), 
factor=factor.analy2(S, m, d), 
likelihood=factor.analy3(S, m, d) 


} 


函数 输入 样本 方差 矩阵 9 或 样本 相关 和 矩阵 R. 因子 个 数 m( 缺 省 值 由 贡献 率 
计算 出 mm 值 ) 特殊 方差 的 初始 估计 d( 缺 省 什 为 侣 = 1/7")， 计 算 因 子 载荷 的 
方法 ， method=princomp 采用 主 成 分 方法 ， method=factor 采用 主因 子 方法 ， 
method=1ikelihood( 缺 省 值 ) 采用 极 大 似 然 方法 . 函数 输出 就 是 采用 前 面 介绍 三 
种 方法 的 输出 格式 . 
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9.2.4 ”方差 最 大 的 正 交 旋转 


因子 分 析 的 目的 不 仅 是 求 出 公共 因子 , 更 主要 的 是 应 该 知道 每 个 公 因 子 的 实 
际 意 义 . 但 由 于 前 面 介绍 的 估计 方法 所 求 出 的 公 因子 解 ， 其 初始 因子 载荷 矩阵 并 
不 满足 “简单 结构 准则 ”, 即 各 个 公 因 子 的 典型 代表 变量 很 不 突出 ， 因 而 容易 使 公 
因子 的 实际 意义 含糊 不 清 ， 不 利用 对 因子 的 解释 .为 此 ， 必 须 对 因子 载荷 矩阵 施 
行 旋转 变换 ， 使 得 因子 载 答 的 每 一 列 各 元 素 的 平方 按 列 向 0 或 1 两 极 转 化 ， 达 
到 其 结构 简化 的 目的 . 


1. 理论 依据 


设 因子 模型 XX = AF 十 ce, 其 中 卫 为 公 因 子 向 量 ， 对 FF 施行 正 交 变换 ， 
今 2 = 二 TTF(T 为 任 一 mm 阶 正 交 矩阵 ), 则 


X= ATZ+e, (9.44) 
且 
Var(2) = Var(T’?F)=T Var(MT = 1,, (9.45) 
Cov(2Z,e) = Cov(T’F,e)=T Cov(F,e)=0, (9.46) 
Var(X) = Var(ATZ)+ Var(e)= ATVar(Z)T AT+D 
= AA7+D. (9.47) 





式 (9.44)-(9.47) 说 明 ， 吞 了 是 因子 模型 的 公 因子 向 量 ， 则 对 任 一 正 交 矩阵 T， 
2Z = 玉环 也 是 公 因子 向 量 . 相应 的 4T 是 公 因子 2 的 因子 载荷 矩阵 ， 

利用 此 性 质 ， 在 因子 分 析 的 实际 计算 中 ， 当 求 得 初始 因子 载荷 窍 阵 A 后 ， 
反复 右 乘 正 交 甜 阵 了 , 使 得 AT 具有 更 明显 的 实际 意义 .这 种 变换 载荷 官 阵 的 方 
法 ， 称 为 因子 轴 的 正 交 旋转 . 


2. 因子 载 答 方差 
设 因子 模型 X = 4 已 +s 4= (qij)pxm 为 公 因 子 向 量 了 的 因子 载荷 矩阵 
j= 


如 果 4 的 每 一 列 ( 即 因子 载荷 癌 量 ) 数值 越 分 散 ， 相 应 的 因子 载荷 问 量 的 方 
差 越 大 . 为 消除 由 于 oz 符号 不 同 的 影响 及 各 变量 对 公共 因子 依赖 程度 不 同 的 影 
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2 
Qi . 
六 i= 1,2,..,p, 7 = 1,2,.…,m, 


将 第 7 列 的 了 个 数据 dij, qd2;,……, dpj; 的 方差 定义 为 
一 、2 1 二 a 人 0 
一 (dz — dd;) ”天 和 - (> 和 | | ， 


其 中 如 = 二 部 吕 ,j= 1,2,.…,m. 则 因子 载荷 矩阵 4 的 方差 为 


2 
m 1 m 了 0 也 a2， 
r- ba als 
j=1 j=1 =1 i=l 1 


奉 V; 值 越 大 ，4 的 第 7 个 因子 载 答 问 量 数值 越 分 散 ， 如 有 果 载 丛 值 或 是 趋 于 1 或 
是 趋 于 0, 这 时 相应 的 公共 因子 万 具有 简单 化 结构 ， 因 而 我 们 希望 因子 载荷 甜 
阵 4 的 方差 尽 可 能 大 . 

3. 方差 最 大 的 正 交 旋转 

通 浓 采用 正 交 旋 转 得 到 方差 最 大 的 载荷 矩阵 ， 设 m = 2, 因子 载荷 矩阵 为 


2 二 


Vj; = 


六 | 一 


i=1 











QI11 Q12 
Q21 (22 
A= | . .|, 
Qpl Qp2 
coSOD 一 Sin 
取 正 交 惩 阵 工 = | . , 则 
sin COS % 
Ql1COSPTa12sSinp 一 Q118Sin wo 十 Ql2 COS bl Di12 
六 Q21COSP T+ a22Sinp —a21Sin y+ Q22 COS (7 bo21 bo22 
Qp1 COSP 十 ap2sinw 一 0plSin 十 Qp2 CO8 bp! bp2 


是 2 = 了 的 因子 载荷 害 阵 ， 这 相当 于 将 户 , 户 确定 的 因子 平面 上 旋转 一 个 角 


度 2. 此 时 ， 
2 
1 | 帮 (二 的 
a (位 雹 ) | 57=12 


i=1 7。 
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为 了 使 
OV 0 
Ge 一 3 (Vi+ VV)=0, 
2 应 满足 ee 
一 A 
tanw = a (9.48) 
其 中 


也 


p p p 
2 
i=1 pe i=1 


一 2 一 | 


2 2 
Qil Qi2 
。 em 一 一 一 -一 一 一 = 1 2 站 


对 于 m > 2 的 情况 ， 需 要 作 多 次 的 旋转 变换 ， 这 里 就 不 再 介绍 其 方法 了 ， 
因为 R 软件 中 的 varimax() 函数 可 以 完成 因子 载荷 矩阵 的 旋转 变换 (或 反射 变 
换 ). 它们 的 使 用 格式 为 

varimax(x, normalize = TRUE, eps = 1e-5) 
其 中 x 是 因子 载荷 窍 阵 normalize 是 逻辑 变量 ， 即 是 否 对 变量 进行 Kaiser 下 
则 化 . eps 是 大 代 终止 精度 . 
例 9.10 用 varimax() 函数 对 例 9.7、 例 9.8 和 例 9.9 中 得 到 的 因子 载荷 矩阵 作 
旋转 变换 ， 使 其 方差 达到 最 大 . 

解 : 用 自 编 的 函数 factor .analy() 得 到 三 种 方法 计算 的 因子 载荷 估计 和 矩 
阵 ， 再 用 varimax() 函数 得 到 方差 最 大 的 因子 载荷 矩阵 ， 以 主因 子 方 法 计算 为 
例 ， 基 本 格式 为 


> source("factor .analy.R") 




















> fa<-factor.analy(R, m=2, method="princomp") 

> vml<-varimax(fa$loadings, normalize = F); vml 

将 程序 中 的 "princomp" 改 为 "factor" 和 "likelihood", 就 可 得 到 另外 两 
种 方法 的 计算 结果 ， 具 体 的 计算 结果 列 在 表 9.5 中 . 


9.2.5 ”因子 分 析 的 计算 函数 


事实 上 , 在 R 软件 中 , 提供 了 作 因子 分 析 计 算 的 函数 一 factanal() 函数 ， 
它 可 以 从 样本 数据 、 样 本 的 方差 矩阵 和 相关 矩阵 出 发 对 数据 作 因 子 分 析 ， 并 可 直 
接 给 出 方差 最 大 的 载 集 因子 矩阵 . 


538 第 九 章 应 用 多 元 分 析 (IT) 


表 9.5: 旋转 后 的 因子 载荷 矩阵 


一 0.278 —0.934 | 一 0.299 —0.913 
一 0.380 “一 0.891 | 一 0.399 一 0.869 
一 0.547 —0.770 | 一 0.561 “一 0.736 
一 0.715 ”一 0.624 | -0.711 —0.610 
一 0.816 ”一 0.521 | 一 0.812 ”一 0.516 


一 0.904 ”一 0.385 | 一 0.906 一 0.377 
一 0.905 ”一 0.393 | 一 0.912 ”一 0.382 
一 0.937 “一 0.257 | 一 0.913 ”一 0.265 


4.211 3.289 4.215 3.127 
0.526 0.411 0.527 0.391 
0.526 0.938 0.527 0.918 


0.762 0.648 0.771 0.637 
一 0.648 0.762 | 一 0.637 0.771 





函数 factanal() 采用 极 大 似 然 法 佑 计 参 数 ， 其 使 用 格式 为 
factanal (x, factors, data = NULL, covmat = NULL, n.obs = NA, 
subset, na.action, start = NULL ， 
scores = c('"none", "regression", "Bartlett"), 
rotation = "varimax", control = NULL, ...) 
其 中 x 是 数据 的 公式 , 或 者 是 由 数据 (每 个 样本 按 行 输入 ) 构成 的 窍 阵 ， 或 者 是 数 
据 框 .factors 是 因子 的 个 数 . data 是 数据 框 , 当 x 由 公式 形式 给 出 时 使 用 . 
covmat 是 样本 的 协 方差 矩阵 或 样本 的 相关 年 阵 ， 此 时 不 必 输 入 变量 x. scores 
表示 因子 得 分 的 方法 ， scores="regression", 表示 用 回归 方法 计算 因子 得 分 ， 
当 参 数 为 scores="Bartlett", 表示 用 Bartlett 方法 计算 因子 得 分 (具体 意义 见 
下 小 节 ), 缺 省 值 为 "none"", 即 不 计算 因子 得 分 ， rotation 表示 旋转 ， 缺 省 值 
为 方差 最 大 旋转 ， 当 rotation="none" 时 ， 不 作 旋 转变 换 . 
例 9.11 取 m = 2, 用 factanal() 函数 估计 例 9.7 因子 载荷 和 共性 方差 等 指 
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示 ， 参 数 选择 方差 最 大 . 


| 


> fa<-factanal (factors=2, covmat=R); fa 
Call: 
factanal(factors = 2, covmat = R) 
Uniquenesses : 

XL X2 X3 X4 X5 X6 X7 X8 
0.081 0.075 0.152 0.135 0.082 0.033 0.018 0.087 
Loadings: 


Factor1 Factor2 


X1 0.291 0.913 
X2 0.382 0.883 
X3 0.543 0.744 
X4 0.691 0.622 
X5 0.799 0.529 
X6 0.901 0.393 
X7 0.907 0.399 
X8 0.914 0.278 
Factor1 Factor2 
SS loadings 4.112 3.225 


Proportion Var 0.514 0.403 
Cumulative Var 0.514 0.917 
The degrees of freedom for the model is 13 and the fit was 0.3318 


在 上 述 信息 中 ， call 表示 调用 函数 的 方法 ._ uniquenesses 是 特殊 方差 ， 
即 cz 的 值 . loadings 是 因子 载荷 矩阵 ， 其 中 Factor1 Factor2 是 因子 ， 
X1 X2 ... X8 是 对 应 的 变量 . SS loadings 是 公共 因子 f; 对 变量 Xi, X，， 
…，Xp 的 总 方差 贡献 ， 即 9) = > Proportion Var 是 方差 贡献 率 ， 即 
Var(X;). 
二 


放 7 
907/ 》 ,Var(Xi). Cumulative Var 是 累积 方差 贡献 率 ， 即 》 g2/ 
i=1 £=1 


在 计算 结果 中 ， 因 子 有 后 几 个 变量 (Xe, X7, Xs) 的 载 位 因子 接近 于 1, 这 些 
变量 涉及 的 是 长 跑 ， 因 此 可 称 及 是 耐力 因子 . 而 因子 户 中 前 几 个 变量 (Xi X2) 
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接近 1, 涉及 的 是 短跑 ， 因 此 可 称 fo 是 速度 因子 . 
例 9.12 现 有 18 名 应 聘 痢 应 聘 菜 公司 的 菜 职位 ， 公 司 为 这 些 应 聘 痢 的 15 项 指 
标 打 分 ， 其 指标 与 得 分 情况 见 第 三 章 例 3.17. 试用 因子 分 析 的 方法 对 15 项 指标 
作 因 子 分 析 ， 在 因子 分 析 中 选取 5 个 因子 . 

解 : 读数 据 (由 例 3.17 知 ， 数 据 在 数据 文件 applicant .data 中 ), 再 调用 函 
数 factanal() 进行 因子 分 析 . 


> rt<-read.table("applicant .data'") 


> factanal(*., factors=5, data=rt) 

Call: 

factanal(x = ~., factors = 5, data = rt) 
Uniquenesses : 


FL APP AA LA SC LC HON SMS EXP DRV 
0.439 0.597 0.509 0.197 0.118 0.005 0.292 0.140 0.365 0.223 
AMB GSP POT KJ SUIT 
0.098 0.119 0.084 0.005 0.267 
Loadings: 
Factor1 Factor2 Factor3 Factor4 Factor5 
FL 0.127 0.722 0.102 -0.117 


APP 0.451 0.134 0.270 0.206 0.258 
AA 0.129 0.686 

LA 0.222 0.246 0.827 

SC 0.917 0.167 

LC 0.851 0.125 0.279 -0.420 
HON 0.228 -0.220 0.777 

SMS 0.880 0.266 0.111 

EXP 0.773 0.171 

DRV 0.754 0.393 0.199 0.114 
AMB 0.909 0.187 0.112 0.165 
GSP 0.783 0.295 0.354 0.148 -0.181 
POT 0.717 0.362 0.446 0.267 

KJ 0.418 0.399 0.563 -0.585 
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SUIT 0.351 0.764 0.148 
Factor1 Factor2 Factor3 Factor4 Factor5 
SS loadings 5.490 2.507 2.188 1.028 0.331 


Proportion Var 0.366 0.167 0.146 0.069 0.022 
Cumulative Var 0.366 0.533 0.679 0.748 0.770 
Test of the hypothesis that 5 factors are sufficient. 

The chi Square statistic is 60.97 on 40 degrees of freedonm. 
The p-value is 0.0179 

第 一 行 是 读数 据 ， 得 到 的 rt 是 数据 框 格式 ， 第 二 行 作 因子 分 析 ，“. 表示 
全 部 变量 . 

在 得 到 的 结果 中 ， 公 共 因 子 还 有 比较 鲜明 的 实际 意义 . 

第 一 公共 因子 中 ， 系 数 绝对 值 大 的 变量 主要 是 : SC( 自 信心 ), LC( 洞 察 力 )， 
SMS( 推 销 能 力 ), DRV (驾驶 水 平 ), AMB( 事 业 心 ), GSP( 理 解 能 力 ), POT( 潜 在 能 
力 ), 这 些 主要 表现 求职 者 外 露 能 力 ; 

第 二 公共 因子 系数 绝对 值 大 的 变量 主要 是 ，FL( 求 职 信 的 形式 ), EXP( 经 验 )， 
SUIT( 适 应 性 ), 这 些 主要 反映 了 求职 者 的 经 验 ; 

第 三 公 系 数 绝对 值 大 的 变量 主要 是 : LA( 讨 人 喜欢 ) 了 ON( 诚 实 ), 它 主要 反 
上映 了 求职 者 提 和 否 讨 人 喜欢 ; 

第 四 、 五 公共 因子 系数 绝对 值 较 小 , 这 说 明 这 两 个 公共 因子 相对 次 要 一 些 . 
第 四 公共 因子 相对 较 大 的 变量 是 ， AA (专业 能 力 ), 人 KJ 交际 能 力 ), 它 主要 反映 了 
求职 者 的 专业 能 力 ; 第 五 公共 因子 相对 较 大 的 变量 是 APP( 外 貌 ), LC( 洞 察 力 )， 
它 主要 反映 求职 者 的 外 貌 . 














9.2.6 ”因子 得 分 


迄今 为 止 ， 已 介绍 了 如 何 从 样本 协 方差 矩阵 5 或 相关 矩阵 RR 来 得 到 公共 因 
子 和 因子 载荷 ， 并 给 出 相应 的 实际 背景 . 当 我 们 得 到 公共 因子 和 因子 载荷 后 ,就 
应 当 反 过 来 考察 每 一 个 样本 .如 对 于 例 9.12, 在 得 到 五 个 公共 因子 后 ， 应 当 考 察 
48 名 应 聘 者 在 五 个 因子 的 得 分 情况 ， 这 样 可 以 便于 公司 从 中 挑选 更 适合 本 公司 
需要 的 人 员 . 

合计 因子 得 分 的 方法 有 两 种 ， 一 是 加 权 最 小 二 乘法 ， 二 是 回归 方法 . 


1. 加 权 最 小 二 乘法 
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设 X 满足 因子 模型 (不 妨 设 1 = 0)， 
X= AF+e. 
假定 因子 载荷 矩阵 4 和 特殊 因子 方差 窍 阵 D 已 知 ， 考 虑 加 权 最 小 二 乘 函 数 
op(F)=(X— AF) DiI(X— AF). 
求 五 的 估计 值 ,使 得 2( = min yp(). 由 极 值 的 必要 条 件 得 到 
FF DD ATD-1X, (9.51) 
这 就 是 因子 得 分 的 加 权 最 小 二 乘 估计 . 
如 果 假 定 X ~ Nj(4F, DD), 则 由 式 (9.51) 得 到 的 天 也 是 对 下 的 极 大 似 然 估 
计 . 该 方法 称 为 Bartlett 因子 得 分 . 
在 实际 问题 中 ， 式 (9.51) 中 的 4 和 D 用 估计 值 4 和 万 代替 ， X 用 样本 
Xo) 来 代替 ， 此 时 ， 得 到 因子 得 分 Fl). 
2. 回归 法 
在 因子 模型 中 ， 也 可 以 反 过 来 ， 将 因子 表示 成 变量 的 线性 组 合 ， 即 
fi= PaXit PiX2t: + ipXp, 1=1,2,.…,m (9.52) 
来 计算 因子 得 分 ， 称 式 (9.52) 为 因子 得 分 函数 ， 写 成 矩阵 形式 
F = BX, (9.53) 
其 中 F = (fi fo, 9 J B= (0 ) mxy: 
下 面 用 回归 的 方法 计算 式 (9.53) 中 号 的 估计 值 . 
假设 变量 X 已 标准 化 ， 公 共 因 子 了 也 已 标准 化 ， 并 假设 公共 因子 F 和 变 
量 X 满足 回归 方程 
fi = bX1it bX tt bp Xp+te;, j=1,2,..,m. (9.54) 
由 因子 载荷 矩阵 4 = (ai)yxn 的 意义 ， 有 
Cov(Xi， f;) 一 Cov(Xi， bjiiX1 十 bji2X2 十 :…… 十 bjpAXp 十 Ej) 
bjiTa 十 bj2Ti2 十 十 bjpTip, 
2 


TikpDjk, 1 一 LD j= 1,2,.…,m, (9.55) 
k=1 








Qij 
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即 
A= RB,, (9.56) 


其 中 已 = (rij)pxp 为 相关 和 窍 阵 ， B = (bij)mxp. 因此， 用 

B= A'R-! (9.57) 
作为 8 的 估计 值 . 代入 式 (9.53) 得 到 

F = 47R-IX. (9.58) 


式 (9.58) 是 因子 得 分 的 计算 公式 . 由 于 该 公式 是 由 回归 方程 得 到 的 ， 因此 称 为 回 
归 法 . 此 方法 是 Thompson (1939) 提出 来 的 ， 也 称 为 Thompson 方法 . 

到 目前 为 止 ， 计 算 因 子 得 分 的 两 种 估计 方法 到 底 哪 一 个 好 还 没有 定论 ， 
此 ， R 软件 中 作 因 子 分 析 的 函数 factanal() 同时 给 出 了 两 种 方法 ， 当 参数 
scores="regression" 时 ， 采 用 的 回归 法 ;， 当 参数 为 scores="Bartlett" 时 ， 
采用 的 是 加 权 最 小 二 乘法 . 
例 9.13 计算 例 9.12 中 48 名 应 聘 者 的 因子 得 分 . 

解 : 
> rt<-read.table("applicant .data'") 


> fa<-factanal(*., factors=5, data=rt, scores='"regression'") 

这 里 采用 的 是 回归 法 . fa$scores 将 给 出 48 名 应 聘 者 在 5 个 公共 因子 的 得 分 
情况 ( 略 ). 为 直观 起 见 ， 画 出 48 位 应 聘 者 在 第 一 、 第 二 公共 因子 下 的 散 点 图 ， 
> plot (fa$scores[, 1:2] , type="n" 

> text(fa$scores[,1], fa$scores[,2]) 


其 图 形 如 图 9.4 所 示 . ”由 前 面 分 析 可 知 ， 第 一 公共 因子 主要 表现 求职 者 外 露 能 
力 , 第 二 公共 因子 主要 表现 求职 者 的 经 验 . 公司 可 以 选择 两 者 得 分 都 比较 高 的 应 
聘 者 , 如 39 、40 、7 、8 、9 和 2 号 应 聘 者 . 如 偏重 外 露 能 力 ， 则 选取 第 一 
公共 因子 得 分 较 大 的 应 聘 者 . 如 偏重 经 验 ， 则 可 以 考虑 第 二 公共 因子 得 分 较 大 的 
应 聘 者 . 公司 也 可 以 根据 情况 ， 画 出 第 二 、 第 三 公共 因子 得 分 的 散 点 图 ， 或 选择 
Bartlett 方法 计算 因子 得 分 . 
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图 9.4: 48 位 应 聘 者 在 第 一 、 第 二 公共 因子 下 的 散 点 图 


9.3 ”典型 相关 分 析 


典型 相关 分 析 (canonical correlation analysis) 是 用 于 分 析 两 组 随机 变量 之 
间 的 相关 性 程度 的 一 种 统计 方法 , 它 能 够 有 效 地 揭示 两 组 随机 变量 之 间 的 相互 线 
性 依赖 关系 .这 一 方法 是 由 Hotelling ( 霍 特 林 ， 1935) 首先 提出 来 的 . 


在 实际 问题 中 ， 经 常 遇 到 要 研究 一 部 分 变量 与 男 一 部 分 变量 之 间 的 相互 关 
系 . 例如 ， 在 工 三， 考察 原料 的 主要 指标 (Xi, X2,…, Xp) 与 产品 的 主要 指标 
(Yi, 2,……,】); 在 经 济 学 中 ， 研 究 主 要 肉食 品 的 价格 与 销售 之 间 的 关系 ， 在 地 
质 学 中 ,为 研究 岩石 形成 的 成 因 关 系 ,考察 岩石 的 化 学 成 分 与 其 周围 岩 化 学 成 分 
的 相关 性 ; 在 教育 学 中 ,考察 研究 生 入 学 考试 成 绩 与 本 科 阶 段 一 些 主要 课程 成 绩 

一 般 地 , 假设 有 两 组 随机 变量 Xi, X2，…, Xp 和 六 ,72,…, Yo, 研究 它们 的 相 
关 关 系 , 当 p = 9 = 1 时 , 就 是 通常 两 个 变量 六 与 了 的 相关 关系 . 当 p > 1,g>1 
时 ， 采 用 类 似 于 主 成 分 分 析 的 方法 ， 找 出 第 一 组 变量 的 线性 组 合 U 和 第 二 组 变 
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量 的 线性 组 合 V, 即 


一 QI1X1 | Qo2X2? 二 Qp 从 np 
V = bY 十 boy2 十 ee 十 baY,, 





于 是 将 研究 两 组 变量 的 相关 性 问题 转化 成 研究 两 个 变量 的 相关 性 问题 , 并 且 可 以 
适当 地 调整 相应 的 系数 a,b, 使 得 变量 UV 和 的 相关 性 达到 最 大 ， 称 这 种 相关 为 
典型 相关 ， 基 于 这 种 原则 的 分 析 方 法 称 为 典型 相关 分 析 . 

9.3.1 ”总体 典型 相关 


1. 典型 相关 的 定义 


设 半 = (XX,X2,… ,Xp) ,YY 二 (六 ,3,…,7)” 为 随机 向 量 , 用 X 与 了 的 
线性 组 合 o X 和 刀 Y 之 间 的 相关 来 研究 X 与 Y 之 间 的 相关 ， 并 希望 找到 a 与 
b, 使 p(a”X,b?Y) 最 大 ， 由 相关 系数 的 定义 ， 


Cov(aTX, biY) 


Ty Ty) 
pla’ X,b YY)= /VT (9.59) 

对 任意 的 Qa, 5 和 c,d, 有 
p (a(arX)+pB,c(bIY) +d) =p (a X, bY). (9.60) 


式 (9.60) 说 明 使 得 相关 系数 最 大 的 ac7X 和 57?Y 并 不 惟一 ， 因 此 ， 在 综合 变量 
时 ， 可 限定 
Var(oX) =1， Var(b'Y)=1. 


X 
设 久 = (Xi, 和 和 了 = (区,… 了)7， p++ 维 随机 向 量 (y 
的 均值 为 0， 协 方差 阵 > 0. 者 存在 al = (all， CQ12， **，， aip)” 和 六 = (b11, b12, 
max pa X,Y), (9.61) 
s.t. Var(a  X)=1, (9.62) 
Var(G7Y) = 1 (9.63) 
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目标 函数 的 最 大 值 ， 则 称 U01 = aiX, Vi = DY 为 X,Y 的 第 一 对 (组 ) 典型 变 
量 (canonical variates), 称 它们 之 间 的 相关 系数 PLD Wi) 为 第 一 典型 相关 系数 
(canonical correlation). 
如 果 存 在 ok = (ak Qk2,* akp) 和 bx = (Dp, pk2 *) big) 使 得 
(1) a 六 ,DY 和 前 面 的 有 一 1 对 典型 变量 都 不 相关 ; 
(2) Var(az X)=1, Var(bfY)=1; 
(3) akX 与 以 Y 相关 系数 最 大 . 
则 称 Ui = af 关 , Vi = 了 Y 为 X,Y 的 第 k 对 (组 ) 典型 变量 ， 称 它们 之 间 的 相关 
2. 典型 变量 和 典型 相关 系数 的 计算 


总 [2 则 有 
eA y 


E(2)=0, Var(2) = 了 = EE, | ， 


221 222 


令 U=aX,V = WY, 因 此， 求解 第 一 对 典型 变量 和 典型 相关 系数 的 约束 优化 
问题 (9.61)-(9.63) 就 等 价 为 


max p(U,V) = a 5128, (9.64) 
st. az2iia = 1 (9.65) 
BYY22B = 1. (9.66) 


这 是 一 个 典型 的 约束 优 问题 ， 这 里 采用 约束 问题 的 一 阶 必要 条 件 进行 求解 . 
构造 约束 问题 (9.64)-(9.66) 的 Lagrange 函数 


L(a, pb, 入 ) 一 ai 二 2 (ao iia = 1) = 2 (672220 = 1) EF 


其 中 入 = (Xi 和 2) 为 Lagrange 乘 子 . 
由 约束 问题 (9.64)-(9.66) 的 一 阶 必要 条 件 


aoL 5 


一 二 一 二 0 Tyua=1 T7328 = 1. 
Ba ) 55 ) Q 11Q ) B’ 2220 
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得 到 如 下 方程 
D120 二 入 1]211GQ: 一 0, (9.67) 
2210 一 ?2220 = 0, (9.68) 
aiia = 1, (9.69) 
pg = 1. (9.70) 


下 面 求解 该 方程 . 在 式 (9.67) 上 左 乘 a?, 式 (9.68) 上 左 乘 57, 再 利用 式 
(9.69) 和 式 (9.70), 得 到 Ai = Xa = 入 . 

由 于 站 > 0, 所 以 2 志 , 2 旨 存在 ， 整 理 式 (9.67) 和 式 (9.68) 得 到 

A D0 AO Dae, (9.71) 

所 以 有 

Na = 57 DYo = Mia, NP= 37 18 = MB, (9.72) 
其 中 Mi = B77 3152 52, Mo = 3 2 12. 

因此 ， 和 2 是 符 阵 M1 或 Mo 的 特征 值 (注意 ，Mi 和 Ms 有 相同 的 特征 值 )， 
a 是 Mi 特征 值 和 对 应 的 特征 向 量 ， 6 是 Mi 特征 值 X 对 应 的 特征 向 量 . 


由 于 
Qa 128 = Ma Pia ABT HB 一 和 ， 


因此 ， 优 化 问题 (9.64)-(9.66) 的 解 a1, o 是 求 Mi 或 M2 最 大 特征 值 MM 和 相应 
的 满足 





[eel = 中 = 
的 特征 向 量 c 和 0. 
下 面 给 出 计算 过 程 : 
(1) 令 Mi = DT D1 Yo; 
(2) 计算 AM 的 最 大 特征 值 六 和 相应 的 特征 向 量 al, 令 


Bb 32 Dao Q1 一 of Vagaan， 0 = Bf y BY 32201, 


则 Ai = VY 为 第 一 对 典型 相关 系数 ，U1 = af 久 ,Vi = DfY 为 第 一 对 典型 变量 , 
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对 于 第 对 典型 相关 变量 的 求解 方法 类 似 于 第 1 对 典型 相关 变量 ， 求 解 第 
个 最 大 特征 值 和 相应 的 特征 向 量 . 略 去 推导 过 程 ， 只 需 将 上 面 的 第 二 步 改 为 : 
(2) 计算 Mi 的 第 大 大 特征 值 XX 和 相应 的 特征 向 量 ax, 令 


Bk = Pa Yodag, 一 ax/ Vagaau bx = Be / VO E22 


则 Xx = Vx 为 第 对 典型 相关 系数 ， Ui = akXX, Vi = 大 了 为 第 对 典型 变 


三 


量 . 


9.3.2 ”样本 典型 相关 


设 总 体 2 = (XX, Xo,…,， Xp, 了,Y2,…, 7) 在 实际 中 ， 总 体 的 均值 向 量 
(2Z) = kh 和 协 方差 矩阵 Cov(2) = 通常 是 未 知 的 ， 因 而 无 法 求 得 总 体 的 典型 
变量 和 典型 相关 系数 ， 因 此 需要 根据 样本 对 沁 进行 估计 . 

已 知 总 体 2 的 n 次 观测 数据 


Ad 
2A0) = 、 ) i= 1,2,.…,n, 
(2 六 

(i) /4 (p+q)x1 


于 是 样本 资料 为 
X11 X12 i Yip Yl V2 *“** Yilg 
X21 22 i Yop VY21 Y22 ‘°° VY2g 
Tnl Xn2 ”LVnp Ynl Yn2 *** Yng 


假设 Z ~ Nys(1, 区), 则 协 方差 矩阵 2 的 极 大 似 然 估计 为 
ee _ TT 
人 (2 - 刁 ， 
车 第 杞 兰 二 Zi, 称 矩 阵 全 为 样本 协 方差 阵 . 
因此 ， 关 于 样本 典型 变量 的 计算 ， 只 需要 将 矩阵 Mi 或 Ms 中 的 Du, Diz 
22, 2 换 成 11, 5， >， 2 即 可 ， 因 此 计算 过 程 为 : 
(1) 令 AM = Dr 
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(2) 计算 Mi 的 全 部 特征 值 X > X > …: > X2 ,其 中 mm = min(p,9), 和 相应 
的 特征 向 量 ax, 有 = 1,2,…,m, 令 


br = 37 PolQk, Qk 一 ax/V aT Sion, bx = Be /VY BSD, 


则 和 4 = Vx 为 第 友 对 样本 典型 相关 系数 ， Ui = a4X, Vi = 凡 Y 为 第 有 对 样本 
典型 变量 . 


9.3.3 ”典型 相关 分 析 的 计算 
R 软件 提供 了 典型 相关 分 析 的 计算 ， 其 计算 形式 为 


cancor(x, y, xcenter = TRUE, ycenter = TRUE) 
其 中 x, y 是 相应 的 数据 矩阵 ， xcenter, ycenter 是 逻辑 变量 ， TRUE 是 将 数据 
中 心 化 ， FLASE 是 不 中 心 化 ( 缺 省 值 是 TRUE). 
例 9.14 某 康复 俱乐部 对 20 名 中 年 人 测量 了 三 个 生理 指标 体重 (X1) 、 腰 围 
(X2) 、 脉 搏 (X3) 和 三 个 训练 指标 : 引 体 向 上 (六 ) 、 起 从 次 数 (2) 、 跳 路 次 数 
(Y3). 其 数据 列 在 表 9.6 中 试 对 这 组 数据 进行 典型 相关 分 析 . 


表 9.6: 康复 俱乐部 测量 的 生理 指标 和 训练 指标 
让 四 


1 5 162 60 189 37 52 110 60 
2 12 101 101 162 35 62 105 37 
3 13 155 58 182 36 56 101 42 
4 8 101 38 167 34 60 125 40 
5 15 200 40 154 33 56 251 250 
6 17 120 38 166 33 52 210 115 
了 215 247 46 50 50 50 
8 70 202 37 62 210 120 
9 60 157 32 52 230 80 
10 138 33 68 110 43 
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解 : 用 数据 框 的 形式 输入 数据 , 为 消除 数据 数量 级 的 影响 , 先 将 数据 标准 化 ， 
再 调用 函数 cancor() 进行 计算 (程序 名 : exam0914.BR) 


test<-data.frame( 
X1=c(191, 193, 189, 211, 176, 169, 154, 193,176，156, 
189, 162, 182, 167, 154, 166, 247,，202,，157，138)， 
X2=c(36，38，35，38，31，34，34，36，37，33， 
37，35，36，34，33，33，46，37，32，33) ， 
X3=c(50，58，46，56，74，50，64，46，54，54， 
52，62，56，60，56，52，50，62，52，68) ， 
Yl=c( 5, 12, 13, 8, 15, 17, 14, 6， 4, 15, 
2, 12,; 4， 6, 17; 13, :1, 12, 11; 2), 
Y2=c(162, 101, 155, 101, 200, 120, 215, 70, 60，225， 
110, 105, 101, 125, 251, 210, 50，210，230，110) ， 
Y3=c(60，101，58，38，40，38，105，31，25，73， 
60，37，42，40，250，115，50，120，80，43) 
) 
test<-scale(test) 


ca<-cancor(test[,1:3] ,test[,4:6]) 
计算 结果 为 


> ca 
$cor 
[1] 0.79560815 0.20055604 0.07257029 
$xcoef 
[,1] [,2] [,3] 

X1 -0.17788841 -0.43230348 -0.04381432 
X2 0.36232695 0.27085764 0.11608883 
X3 -0.01356309 -0.05301954 0.24106633 
$ycoef 

[,1] [,2] [,3] 
Y1 -0.0801801 -0.08615561 -0.29745900 
Y2 -0.2418067 0.02833066 0.28373986 
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Y3 0.1643596 0.24367781 -0.09608099 


$xcenter 
X1 X2 X3 
2.331468e-16 4.385381e-16 -2.220446e-16 

$ycenter 
Y1 Y2 Y3 


1.443290e-16 -1.776357e-16 2.775558e-17 
其 中 cor 是 典型 相关 系数 . xcoef 是 对 应 于 数据 X 的 系数 ， 也 称 为 关于 数据 X 
的 典型 载荷 (canonical loadings), 即 样本 典型 变量 U 系数 矩阵 4 的 转 置 . ycoef 
是 对 应 于 数据 了 的 系数 ， 也 称 为 关于 数据 Y 的 典型 载荷 ， 即 样本 典型 变量 V 
系数 矩阵 B 的 转 置 。 $xcenter 是 数据 X 的 中 心 ， 即 数据 X 的 样本 均值 XX. 
$ycenter 是 数据 了 的 中 心 ， 即 数据 了 的 样本 均值 了 . 由 于 数据 已 作 了 标准 化 
人 处理 ， 因 此 这 里 计算 出 的 样本 均值 为 0. 
对 于 康复 俱乐部 数据 ， 与 计算 结果 相对 应 的 数学 意义 是 
Ui = 一 0.178X1 十 0.362X> 一 0136X3， 
Da 0dr 0 O0630., (9.73) 
Us = —0.0438XI 十 0.116X; 十 0.241X3， 





Vi = —0.0802Y™ — 0.242Y; + 0.164Y2, 
Va = —0.08615Y? + 0.0283Y2 + 0.244Y’;, (9.74) 
Vs = 一 0.297Y* + 0.284Y2 — 0.0961Y», 


其 中 X7, Y*, i 二 1,2,3 是 标准 化 后 的 数据 ， 相 应 的 相关 系数 为 


p(Ui, Vi) =0.796,  p(Uz, Wa) = 0.201, p(Us, V3) = 0.0726. 


由 式 (9.60) 可 知 ， 式 (9.73) 和 式 (9.74) 的 系数 并 不 惟一 ， 是 它们 的 任意 倍 
均 可 

下 面 计 算 样本 数据 在 典型 变量 下 的 得 分 . 由 于 V = 4X, Y = BY, 所 以 得 
分 的 R 程序 为 

U<-as.matrix(test[, 1:3])%*% ca$xcoef 


V<-as.matrix(test[, 4:6])%*% ca$ycoef 
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画 出 以 相关 变量 01, Vi 和 Us, V3 为 坐标 的 数据 散 点 图 ， 其 命令 为 
BLOGECUL IT VCEI], Xlab="Ui", ylab vl) 
plot(U[,3] ; V3], Xlabs"Us", ylab="yan) 


其 图 形 如 图 9.5 和 图 9.6 所 示 . 
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图 9.5: 第 一 典型 变量 为 坐标 的 散 点 图 
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图 9.6: 第 三 典型 变量 为 坐标 的 散 点 图 
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观察 这 两 张 图 ， 你 会 发 现 ， 图 9.5 中 的 点 基本 上 在 一 条 直线 附近 ， 而 图 9.6 
中 的 点 ， 基 本 上 分 布 很 散 . 这 是 为 什么 呢 ? 事实 上 ， 图 9.5 画 的 是 第 一 典型 变量 
的 散 点 图 ， 其 相关 系数 为 0.796, 接近 于 1, 所 以 在 一 直线 附近 ， 而 图 9.6 画 的 是 
第 三 典型 变量 的 散 点 图 ， 其 相关 系数 为 0.0726, 接近 于 0, 所 以 很 分 散 . 


9.3.4 ”典型 相关 系数 的 显著 性 检验 
作 相 关 分 析 的 目的 ， 与 前 面 的 主 成 分 分 析 、 因 子 分 析 类 似 ， 都 是 利用 降 维 的 
方法 来 处 理 数据 ,这 里 同样 存在 着 一 个 问题 ,就 是 选择 多 少 对 典型 变量 ? 要 回答 
这 一 问题 ， 就 需要 作 典 型 相关 系数 的 显著 性 检验 . 者 认为 典型 相关 系数 pi = 0， 
则 就 不 必 考 虑 第 太 对 典型 变量 . 
1. 全 部 总 体 典型 相关 系数 均 为 零 的 检验 
X 
设 ( y ) ~ Nraio 忆 , 台 > 0, 9 为 本 本 的 协 方 关 拭 阵 ，m 为 样本 个 数 ， 且 
人 .之 六 十 9. 
考虑 假设 检验 问题 : 
Ho:p1=p2= := pm = 0, 万 : 至 少 一 个 pi 不 为 0， (9.75) 
其 中 m= min{p, 9}. 
若 检 验 接 受 Ho, 则 认为 讨论 两 组 变量 之 间 的 相关 性 没有 意义 ; 大 检验 拒绝 
Ho, 则 认为 第 一 对 典型 变量 是 显著 的 ， 事实 上 ， 式 (9.75) 等 价 于 假设 检验 问题 


Ho 和 >12 = 0, Hi >12 关 0. (9.76) 








当 Ho 成 立 ， 表明 X 与 》 互 不 相关 . 似 然 比 检 验 统计 量 为 


m 


A=][G -7 (9.77) 
对 于 充分 大 的 n, 当 Uo 成 立时 ， 统 计量 
Qi ntoty| nA (9.78) 





近似 服从 自由 度 为 pq 的 x? 分布 . 在 给 定 的 显著 性 水 平 a 下 ,， 若 Qi > Xa(p9)， 
则 拒绝 原 假设 Ho, 认为 典型 变量 01 与 Vi 之 间 相 关 性 显著 ， 否 则 认为 第 一 典型 
相关 系数 不 显著 .在 这 种 情况 下 ， 就 没有 必要 作 典 型 相关 分 析 了 . 
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2. 部 分 总 体 典型 相关 系数 均 为 零 的 检验 


假设 前 人 个 典型 相关 系数 是 显著 的 ， 现 要 检验 第 人 十 1 个 典型 相关 系数 是 否 
显著 ， 则 作 如 下 检验 : 


Ho:prni= pa = 二 pm 二 0， 卫 : 至少 一 个 pi 不 为 0. (9.79) 


其 检验 统计 量 为 








m 


As= |[ = (9.80) 


i=k 十 1 


对 于 充分 大 的 n, 当 Ho 为 真 时 ， 统 计量 
k 
Qkt1 = — nk (p+tgt3) + Dr ln Apr1 (9.81) 


i=1 
近似 服从 自由 度 为 (p 一 月 (q 一 ) 的 Xx? 分布， 在 给 定 的 显著 性 水 平 a 下 ， 若 
Qx+t1 二 Xa((P 一 月 (g 一)), 则 拒绝 原 假设 Ho, 认为 第 十 1 个 典型 相关 系数 pk+l 
是 显著 的 ， 否 则 认 上 典型 相关 系数 不 显著 ， 那 么 典型 变量 只 取 到 为止. 
3. 相关 系数 检验 的 R 程序 
按照 前 面 介绍 有 方法 编写 出 相应 的 R 程序 (程序 名 : corcoef .test.R) 


corcoef .test<-function(r, n, p, qd, alpha=0.1)1{ 





m<-length(r); Q<-rep(0, m); lambda <- 1 
for (k in m:1){ 
lambda<-lambda*(1-r[k] “2); 
Q[k]<- -log(lambda) 
} 
s<-0; i<-m 
for (k in 1:m){ 
Q[k]<- (n-k+1-1/2*(ptq+3)+s)*Q[k] 
chi<-1-pchisq(Q[k], (p-k+1)*(g-k+1)) 
if (chi>alpha)t 
i<-k-1; break 
} 
s<-s+1/r[k] “2 
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} 
程序 的 输入 值 是 相关 系数 7, 样本 个 数 n, 两 个 随机 向 量 的 维 数 p 和 q, 以 及 置信 
水 平 a( 缺 省 值 为 0.1). 程序 的 输出 值 是 典型 变量 的 对 数 . 
例 9.15 ( 续 例 9.14) 对 例 9.14 的 典型 相关 系数 作 检 验 . 

解 : 利用 计算 公式 所 编写 的 R 函数 corcoef .test() 作 检 验 . 


> source('"corcoef .test.R') 
> corcoef .test(r=ca$cor, n=20, p=3，, d=3) 
[1] 1 


只 需 第 一 对 典型 变量 .从 图 9.6, 我 们 也 可 以 看 到 ， 散 点 图 很 分 散 ， 无 法 给 出 相关 
诗 息 .同样 ， 画 第 二 典型 变量 的 散 点 图 ， 其 图 形 也 很 分 散 . 因 此， 我 们 只 利用 第 
一 典型 变量 分 析 问 题 ， 达 到 降 维 的 目的 . 
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9.1 用 主 成 分 方法 探讨 城市 工业 主体 结构 . 表 9.7 是 某 市 工业 部 门 十 三 个 
分 别 是 冶金 (1) 、 电 力 (2) 、 es 
(7) 、 食 品 , (8) 、 纺 织 (9) 、 缝 幼 (10) 、 皮 音 (11) 、 造 纸 (12) 和 文教 艺术 用 品 
(13), 入 个 指标 ， 分 别 是 年 未 固定 资产 净值 XI (万 元 )、 职 工人 数 Xo (人 )、 工 
业 总 产值 X3 (万 元 )、 全 员 劳 动 生产 率 X4 (元 /人 年 )、 百 元 国定 原 值 实现 产 
值 Xs (元 )、 资 金利 税率 Xe ( 多 )、 标 准 燃料 消费 量 X7 ( 吨 ) 和 能 源 利 用 效果 
X8 (万 元 / 吨 ) 的 数据 . 

(1) 试用 主 成 分 分 析 方 法 确定 8 个 指标 的 几 个 主 成 分 ， 并 对 主 成 分 进行 解 
释 ，; 

(2) 利用 主 成 分 得 分 对 13 个 行业 进行 排序 和 分 类 . 
9.2 对 某 地 区 的 某 类 消费 品 的 销售 量 了 进行 调查 , 它 与 下 面 四 个 变量 有 关 : XX1 
居民 可 支配 收入 ，X2 该 类 消费 品 平 均 价 格 指数 ， X3 社会 该 消费 品 保 有 量 ，X4 
其 他 消费 品 平均 价格 指数 ， 历 史 资 料 如 表 9.8 所 示 . ” 试 利 用 主 成 分 回归 方法 建 
立 销售 量 了 与 四 个 变量 XI, X2, X3 和 X4 的 回归 方程 . 
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表 9.7: 茶 市 工业 部 门 十 三 个 行业 入 个 指标 的 数据 


所? 

52455 
1973 
21139 
36241 
203505 
16219 
6572 
23078 
23907 
3930 
5704 
6155 
13203 


101091 
2035 
3767 

81557 
215898 
10351 
8103 
54935 
52108 
6126 
6200 
10383 
19396 


19272 
10313 

1780 
22504 
10609 

6382 
12329 
23804 
21796 
15586 
10870 
16875 
14691 


82.0 
34.2 
36.1 
98.1 
93.2 
62.5 
184.4 
370.4 
221.5 
330.4 
184.2 
146.4 
94.6 


16.1 
7.1 
8.2 

25.9 

12.6 
8.7 

22.2 

41.0 

21.5 

29.5 

12.0 

27.5 

17.8 


表 9.8: 某 类 消费 品 销售 的 原始 数据 


XX] 
82.9 
88.0 
99.9 
105.3 
117.7 
131.0 
148.2 
161.8 
174.2 
184.7 





入 
92 
93 
96 
94 
100 
101 
105 
112 
112 
112 


17.1 
21.3 
25.1 
29.0 
34.0 
40.0 
44.0 
49.0 
51.0 
53.0 


Xa 
94 
96 
97 
97 
100 
101 
104 
109 
111 
111 


197435 
592077 
726396 
348226 
139572 
145818 
20921 
65486 
63806 
1840 
8913 
78796 
6354 


8.4 

9.6 

10.4 
11.4 
12.2 
14.2 
15.8 
17.9 
19.6 
20.8 
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9.3 对 305 名 女 中 学 生 测 量 八 个 体型 指标 , 相应 的 相关 矩阵 见 例 8.7 中 的 表 8.5 所 
示 . 试用 因子 分 析 的 方法 对 这 入 个 体型 指标 进行 分 析 ， 找 出 公共 因子 ， 并 给 出 合 
理 的 解释 . 

9.4 为 考查 学 生 的 学 习 情 况 ， 学 校 随 机 的 拍 取 12 名 学 生 的 5 门 课 期 末 考 试 的 
成 绩 ， 其 数据 见 例 9.18 中 的 表 3.6, 试用 因子 分 析 的 方法 对 这 种 数据 进行 分 析 . 

(了) 找 出 五 门 课程 的 公共 因子 ， 并 进行 合理 的 解释 ， 

AN esa 画 出 因子 得 分 的 第 
一 、 第 二 公共 因子 的 散 点 图 ， 通 过 这 些 散 点 图 来 分 析 这 12 名 学 生 的 学 习 情 况 . 
9.5 欲 研 究 儿 童 形态 与 肺 通气 功能 的 关系 ， 测 得 某 小 学 40 名 8~12 岁 健康 儿童 
形态 (身高 、 体 重 和 胸围 ) 与 肺 通气 功能 (肺活量 、 静 息 通气 和 每 分 钟 最 大 通气 
量 ), 数据 如 表 9.9 所 示 . 试 分 析 儿 童 形态 指标 与 肺 通气 指标 的 相关 系 ， 确定 典 型 
变量 的 对 数 . 

表 9.9: 儿童 形态 肺 通气 功能 指标 表 
儿童 形态 肺 通气 功能 


序 | 身高 休 重 胸围 | 肺活量 静 息 通气 每 分 钟 最 大 
号 | (om (ga (cm)Xs | (DY 量 (D)。 通气 量 (区 
| 2.67 7.00 108.0 
2 2.08 6.98 91.7 
3 2.62 6.17 101.8 
4 2.89 10.42 112.5 
5 2.14 7.47 97.5 
6 2.86 9.25 92.4 
3.14 8.78 95.4 
8 A 5.31 77.2 
9 2.91 10.69 80.8 
10 2.33 11.15 76.7 
11 1.98 7277 49.9 
12 3.29 3.35 58.0 
13 2.74 10.11 82.4 
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表 9.9( 续 ): 儿童 形态 肺 通气 功能 指标 表 


身高 体重 胸围 肺活量 静 息 通气 ” 每 分 钟 最 大 
(emjXi1 (kgjXa (em)jXs | (LY 量 (D9 通气 量 (LY 


2.44 7.82 76.5 
2.98 人才 88.1 
SY: 19.14 110.3 
2.25 8.75 75.1 
2.96 6.60 HE 
2.13 6.62 105.4 
2.52 5.59 82.0 
1.92 5.81 92.7 
2.02 6.42 78.2 
2.64 8.00 89.1 
2.87 9.09 61.8 
2.71 10.20 98.9 
2.92 6.16 83.7 
2.79 9.50 84.0 
2.27 8.92 71.0 
2.86 12.03 125.4 
2.67 7.00 108.0 
2.38 6.98 91.7 
2.62 1 101.8 
2.89 10.42 112.5 
2.14 2 97.5 
2.66 9.25 92.4 
2.75 8.78 95.4 
2.19 5.91 77.2 
2.91 10.69 80.8 
2.63 11.15 76.7 


2.01 7.77 49.9 
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在 用 传统 的 方法 难以 解决 的 问题 中 , 有 很 大 一 部 分 可 以 用 概率 统计 模型 进行 
描述 . 由 于 这 类 模型 难以 作 定 量 分 析 ， 得 不 到 解析 结果 ， 或 者 有 解析 结果 但 工作 
量 太 大 以 至 无 法 实现 . 另外， 即便 是 确定 性 模型 ， 也 有 可 能 得 不 到 解析 的 结果 . 
在 这 种 情况 下 ， 可 以 采用 计算 机 模拟 的 方法 来 分 析 和 解决 问题 . 

本 章 介绍 最 基本 的 计算 机 模拟 方法 ,和 与 计算 机 模拟 蜜 不 可 分 的 Monte Carlo 
方法 . 


10.1 ”概率 分 析 与 Monte Carlo 方法 


10.1.1 ”概率 分 析 


概率 分 析 是 指 用 概率 的 方法 来 分 析 和 讨论 随机 模型 下面 请 看 一 个 例子 . 
例 10.1 ( 赶 火车 问题 ) 

一 列 火 车 从 4 站 开 往 B 站 ， 某 人 每 天 赶 往 站 上 火车 . 他 已 了 解 到 火车 从 
4 站 到 BB 站 的 运行 时 间 是 服从 均值 为 30 分钟， 标准 差 为 2 分 钟 的 正 态 随机 变 
量 . 火车 大 约 下 午 19 点 离开 4 站 ， 此 人 大 约 13:30 达到 B 站 . 火车 离开 A 站 
的 时 刻 及 概率 如 表 10.1 所 示 . 此 人 到 达 B 站 的 时 刻 及 概率 如 表 10.2 所 示 ， 问 
他 能 赶 上 火车 的 概率 是 多 少 ? 

表 10.1: 火车 离开 A 站 的 时 刻 及 概率 
火车 离 站 时 刻 13:00 13:05 13:10 


概率 0.7 0.2 0.1 





表 10.2: 某 人 到 达 B 站 的 时 刻 及 概率 
人 到 站 时 刻 13:28 13:30 13:32 13:34 


概率 0.3 0.4 0.2 0.1 





解 : 记 了 为 火车 从 A 站 出 发 的 时 刻 ，72 为 火车 从 A 站 到 达 B 站 运行 的 时 
间 ， 为 此 人 到 达 B 站 的 时 刻 . 因此 , 7, 72, T3 均 是 随机 变量 , 且 72 ~ N(30, 2”)， 
了 ,Ts 的 分 布 律 由 表 10.3 和 表 10.4 所 示 . 
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表 10.3: 克 的 分 布 律 
时 刻 了 /分 0 5 10 
概率 p 0.7 0.2 0.1 
其 中 记 13 时 为 时 刻 t= 0. 
表 10.4: 人 的 分 布 律 
时 刻 有/ 分 28 30 32 34 
概率 p 0.3 0.4 0.2 0.1 
其 中 记 13 时 为 时 刻 t= 0. 


通过 分 析 可 知 ， 此 人 能 及 时 赶 上 火车 的 充分 必要 条 件 是 ， 了 二 72 > .由 
此 得 到 , 此 人 赶 上 火车 的 概率 为 P{ 了 十 > 了}. 上 述 分 析 方 法 称 为 概率 分 析 . 

还 有 许 许多 多 的 概率 分 析 问 题 . 提 到 概率 分 析 就 必须 提 到 Monte Carlo ( 莹 
特 卡 洛 ) 方法 ， 因 为 Monte Carlo 方法 是 完成 概率 分 析 和 计算 机 模拟 的 重要 手 
段 . 


10.1.2 ”Monte Carlo 方法 


Monte Carlo 方法 ， 又 称 为 Monte Carlo 模拟 ,或 统计 试验 方法 或 随机 模拟 
等 . 所 谓 模 拟 就 是 把 某 一 现实 的 或 抽象 的 系统 的 部 分 状态 或 特征 ， 用 男 一 个 系统 
( 称 为 模型 ) 来 代替 或 模仿 . 在 模型 上 作 实 验 称 为 模拟 实验 ， 所 构造 的 模型 为 模拟 
模型 . 

Monte Carlo 是 摩纳哥 国 的 世界 著名 赌 城 ,第 二 次 世界 大 战 期 间 ，Von Neu- 
man ( 汉 . 诺 依 曼 ) 和 Ulam( 乌 拉 姆 ) 将 他 们 从 事 的 与 研制 原子 弹 有 关 的 秘密 工 
作 ， 以 赌 城 Monte Carlo 作为 秘密 代号 的 称呼 . 他 们 的 具体 工作 是 对 裂变 物质 的 
中 子 随机 扩散 进行 模拟 . 

Monte Carlo 方法 的 基本 思想 是 将 各 种 随机 事件 的 概率 特征 (概率 分 布 、 数 
学 期 望 ) 与 随机 事件 的 模拟 联系 起 来 ,用 试验 的 方法 确定 事件 的 相应 概率 与 数学 
期 望 . 因而 ， Monte Carlo 方法 的 突出 特点 是 概率 模型 的 解 是 由 试验 得 到 的 ， 而 
不 是 计算 出 来 的 . 

此 外 ， 模 拟 任 何 一 个 实际 过 程 ， Monte Carlo 方法 都 需要 用 到 大 量 的 随机 
数 ， 计 算 量 很 大 ， 人 工 计算 是 不 可 能 的 ， 只 能 在 计算 机 上 实现 . 

我 们 可 用 Monte Carlo 方法 实现 在 第 一 章 介 绍 的 Buffon 掷 针 问题 . 
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例 10.2 (Buffon 掷 针 问题 ) 

在 概率 论 中 ， 著 名 的 Bufjfon 搓 针 问题 就 是 用 统计 试验 的 方法 求 圆 周 率 T 的 
典型 代表 . 现 用 模拟 的 方法 重 现 Buffon 顽 针 问题 . 

解 : 由 第 一 章 的 例 1.2 可 知 ， 针 与 平行 线 相 交 的 充分 必要 条 件 是 


< Le 
2 


Buffon 的 投 针 试验 在 计算 机 上 实现 ， 需 要 作 以 下 两 个 步 双 : 

(1) 产生 随机 数 . 首先 产生 ”个 相互 独立 的 随机 变量 9, x 的 抽样 序列 0;, zi 
i 二 1,2,…,n, 其 中 0; ~ U(0,7), 和 ~U(0,5). 

(2) 模拟 试验 ， 检 验 不 等 式 


1 
Xi < 3 sint (10.1) 


是 否 成 立 . 若 式 (10.1) 成 立 ， 表示 第 i 次 试验 成 功 ( 即 针 与 平行 线 相交 ). 设 n 次 
试验 中 有 天 次 成 功 ， 则 7 的 估 值 为 
2n 


其 中 a > 1, 均 为 预先 给 定 . 
将 上 述 步 驴 编写 成 R 模拟 程序 (程序 名 buffon.R) 
buffon<-function(n, 1=0.8, a=1)1{ 
k<-0 
theta<-runif(n, 0, pi); x<-runif(n, 0, 1/2) 
for (i in 1:n){ 
if (x[i]<= 1/2*sin(thetal[il])) 
k<-k+1 
} 
2*1*n/ (kKk*a) 
} 
调用 已 编 好 的 R 程序 buffon.R, 进行 模拟 ,， 取 n= 100000, 1 = 0.8, a = 1 
> source("buffon.R'") 
> buffon(100000, 1=0.8, a=1) 
[1] 3.142986 
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Buffon 的 投 针 试 验 的 模拟 过 程 虽 然 简单 ， 但 基本 反应 了 Monte Carlo 方法 
求解 实际 问题 的 基本 步骤. 大体 需要 有 建 模 、 模 型 改进 、 模 拟 实 验 和 求解 四 个 过 
程 . 

为 了 便于 理解 模型 改进 ， 这 里 用 概率 分 析 方 法 再 讨论 求 + 的 另 一 种 模拟 方 
法 . 

例 10.3 用 概率 分 析 方 法 进行 模拟 ， 计 算 圆周 率 x 的 估计 值 . 
解 : 考虑 服从 (0,1) 区 间 上 均匀 分 布 的 独立 的 随机 变量 X 与 Y, 因此， 二 维 
随机 变量 (X,Y) 的 联合 概率 密度 为 
0<z<1, 0<y<1， 
X,Yy) = 
“0o 其它 
册 天 闪 机 宫 芝 和 二 

考虑 边 长 为 1 的 正方 形 ， 以 一 个 角 (点 O) 为 圆心 ，1 为 半径 的 1/4 圆 弧 . 
然后 ， 在 正方 形 内 等 概率 地 产生 nN 个 随机 点 (Zi, yi), 1 一 1,2, ,7 即 Ti 和 Yi 
是 (0,1) 上 均匀 分 布 的 随机 数 ， 如 图 10.1 所 示 . 设 n 个 点 中 有 上 个 点 落 在 1/4 

y 


1 





人 bg 
O 1 


图 10.1: 用 Monte Carlo 方法 求 5 的 估计 和 值 
圆 内 ， 即 有 天 个 点 (zi, i) 满足 宫 十 好 之 1. 则 当 n 一 co, 有 如 下 关系 ， 


全 _ ， 4 圆 面 积 (2) = 


因此 ，7 的 估计 值 为 


下 面 编写 的 模拟 程序 (程序 名 MC1.R) 
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MC1 <- function(n)t{ 
k <- 0; x <- runif(n); y <- runif(n) 
for (i in 1:n){ 
if (x[i]“2+y[i]*2 < 1) 
k <- k+l1 
} 
4*kK/n 
} 
其 中 runif () 是 产生 均匀 分 布 的 随机 数 ， 其 使 用 方法 为 runif (n，a，b) 产生 区 
间 个 (a,5) 区 间 上 均匀 分 布 的 随机 数 ， 若 a,? 值 省 缺 ， 则 产生 n 个 (0,1) 区 间 
上 均匀 分 布 的 随机 数 . 调用 MC1 函数 ， 取 n = 100000, 得 到 
> source('"MC1.R"); MC1(100000) 
[1] 3.14268 
上 面 讨论 的 用 Monte Carlo 方法 求 7 的 方法 , 本 质 上 就 是 用 Monte Carlo 方 
法 求 定 积分 I VT 一 z2dz. 下 面 给 出 求 定 积分 的 一 般 方法 . 


例 10.4 用 Monte Carlo 方法 求 定 积分 





SS g(x)dz. (10.3) 


解 : 图 10.2(a) 的 阴影 面积 表示 是 定 积 分 (10.3) 的 值 ， 为 简化 问题 ， 将 函数 
限制 在 单位 正方 形 (0 < z < 1,0 < y < 1) 内 , 如 图 10.2(b) 所 示 . 只 要 函数 9(z) 











图 10.2: 用 Monte Carlo 方法 求 定 积分 的 示意 图 
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在 区 间 [4,4] 内 有 界 ， 则 可 以 适当 选择 坐标 轴 的 比例 尺度 ， 总 可 以 得 到 图 10.2(b) 
的 形式 . 
现在 只 考虑 图 10.2(b) 的 情况 ， 计 算 定 积 


7= 上 f (x)dzx. (10.4) 


令 zx,y 为 相互 独立 的 (0,1) 区 间 上 均匀 随机 数 ,在 单位 正方 形 内 随机 的 投掷 7 个 
点 (2007 = 12 0. 若 第 7 个 随机 点 (zj,y;) 落 于 曲线 f(x) 下 的 区 域内 
(图 10.2(b) 内 有 阴影 的 区 域 ), 表明 第 7 次 试验 成 功 ， 这 相应 于 满足 概率 模型 


y; < f(x;). (10.5) 
设 成 功 的 总 点 数 有 上 天 个 ， 总 的 试验 次 数 为 n, 则 由 强大 数 定律 ， 有 


. kk 
lim — = », 
NO0N 


从 而 有 

= 二 人 (10.6) 
显然 ， 概 率 p 即 为 图 10.2(b) 的 面积 4. 从 而 ， 随 机 点 落 在 区 域 4 的 概率 p 恰 是 
所 求 积 分 的 估 值 1 

综 上 所 述 ， 可 以 把 Monte Carlo 方法 解 题 的 一 般 过 程 归 纳 为 以 下 三 点 . 

(1) 构造 问题 的 概率 模型 

对 随机 性 质 的 问题 ， 如 中 子 磁 撞 、 粒 子 扩散 运动 等 ， 主 要 是 描述 和 模拟 运动 
的 概率 过 程 ， 建 立 概率 模型 或 判别 式 ， 这 一 问题 ， 在 后 面 的 应 用 中 还 将 进一步 讨 
论 . 

对 确定 性 问题 ， 如 确定 7 值 ， 计算 定 积分 ， 则 需 将 问题 转化 为 随机 性 问题 ， 
例如 图 10.2(a) 计算 连续 函数 g(x) 在 区 间 [a, 中 的 定 积分 ， 则 是 在 c(b 一 a) 的 有 
界 区 城内 产生 者 干 随机 点 ， 并 计数 满足 不 等 式 y; < g(zj) 的 点 数 ， 从 而 构成 了 问 
题 的 概率 模型 . 

(2) 从 已 知 概率 分 布 抽样 

从 已 知 概率 分 布 抽样 ， 实 际 上 是 产生 已 知 分 布 的 随机 数 序列 ， 从 而 实现 对 随 
机 事件 的 模拟 . 例如 , 要 得 到 估 值 1 关键 在 于 产生 jz) 的 抽样 序列 f(z1), f(zx2)， 
…, 了 (xn), 即 产生 具有 密度 函数 为 f(x) 的 随机 序列 . 
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(3) 建立 所 需 的 统计 量 

对 求解 的 问题 ， 用 试验 的 随机 变量 k/n 作为 问题 解 的 估 值 ， 奉 Am 的 期 望 
值 恰好 是 所 求 问题 的 解 ， 则 所 得 结果 为 无 侦 佑 计 ， 这 种 情况 在 Monte Carlo 方法 
中 用 得 最 多 . 除 无 偏 估计 外 ， 有 时 也 用 极 大 似 然 佑 计 、 渐 近 佑 计 等 . 


10.1.3 ”Monte Carlo 方法 的 精度 分 析 


Monte Carlo 方法 是 以 随机 变量 抽样 的 统计 估 值 去 推断 概率 分 布 的 ， 抽 样 不 
是 总 体 , 这 里 就 有 一 个 误差 佑 计 的 重要 问题 . Monte Carlo 方法 所 能 达到 的 精度 
与 其 应 用 范围 的 大 小 紧密 相关 . 我 们 希望 能 以 较 少 的 试验 次 数 ( 即 较 低 的 费用 ) 
得 到 较 高 的 精度 ， 下 面 讨 论 这 一 问题 . 

设 有 随机 变量 X, 其 抽样 值 为 x1, za …… 现 欲求 其 期 望 值 E(X), 可 以 有 两 种 
方法 . 


1. 随机 投 点 方法 


随机 投 点 方法 ( 见 例 10.3 和 例 10.4), 是 进行 n 次 试验 ， 当 nn 充分 大 时 ， 以 
随机 变量 k/n 作为 期 望 值 EE(X) 的 近似 佑 值 ， 即 





E(X) 之 万 = 大 /7 
其 中 上 是 nn 次 试验 中 成 功 的 次 数 ， 
若 一 次 投 点 试验 的 成 功 概率 为 p, 并 以 
-{: 表明 试验 成 功 ， 
””【 0， 表明 试验 失败 ， 
则 一 次 试验 成 功 的 均值 与 方差 为 
E(Xi) = 1:p+0:(1—7p)=», 


Var(Xi) = 1.p+0:(1—p)—p=p(1—p). 


若 进行 n 次 试验 ， 其 中 次 试验 成 功 ， 则 上 为 具有 参数 为 (n,p) 的 二 项 分 布 . 
此 时 ， 随 机 变量 的 佑 值 为 
D7 = Ek/n. 
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显然 ， 随 机 变量 5 的 均值 和 方差 满足 


Bn) -BE( 2) = EA) -=p Varlp) = 





因而 标准 差 5 = yp(1 一 p)/n. 当 p = 0.5 时 ， 标 准 差 达到 最 大 . 
现在 讨论 ， 当 试验 次 数 n 取 多 大 时 , 不等式 7 一 p| < = 的 概率 不 小 于 1 一 a,， 
即 
P{|5—p|<ée}=1—a. (10.7) 
这 就 是 说 , 等 式 (10.7) 的 置信 度 为 a, 其 精度 为 =. 例如 , 知 取 a = 0.05,e = 0.01， 
则 在 100 次 试验 中 ， 估 值 7 与 真 值 p 之 差 ， 大约 有 95 次 不 超过 1% 的 误差 . 
由 中 心 极限 定理 可 知 , 当 一 co 时 ，(5 一 p)/3 渐 近 于 标准 正 态 分 布 N(0, 1)， 
因此 有 
P {Ee < zo) =1—a, (10.8) 
其 中 Zaja 正 态 分 布 的 上 Qf2 分 位 点 . 
比较 式 (10.7) 和 式 (10.8), 得 到 
(Cs Zuj29 = Zaja V p(1 — Dp)/n, 
从 则 有 


p(1—p) 
E2 





n> 2 (10.9) 


例 10.3 是 用 随机 投 点 法 来 估计 圆周 率 x, 下 面 来 计算 它 需要 多 少 次 试验 才能 
达到 精度 要 求 . 
例 10.5 ( 续 例 10.3) 考虑 置信 度 为 5%, 精度 要 求 为 0.01 的 情况 下 , 求 例 10.3 所 
需 的 试验 次 数 . 

解 : 由 题 意 知 a = 0.05, 因为 Y/4 就 是 模拟 的 期 望 值 , 得 到 p = T/4 = 0.785， 
< 一 0.01/4. 查 表 或 经 计算 (qnorm(1-0.05/2)) 得 到 Za = 1.96, 因此 


|p-p) a | |0.785 x 0.215 x 1.90 
e2 “0/2 (0.01/4)? 





| = 103739. 


其 中 |:| 表示 上 取 整 . 
因此 ， 作 100000 次 模拟 ， 得 到 7 的 模拟 值 与 真实 值 有 95% 的 可 能 误差 在 
1% 以 内 . 
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表 10.5: 投 点 算法 的 试验 次 数 (a = 0.05) 
e = 0.05 e = 0.01 e = 0.005 e = 0.001 


140 3500 14000 350000 
250 6200 25000 620000 
330 8100 33000 810000 
370 9300 37000 930000 
390 9600 39000 960000 





按 公式 〈10.9), 可 得 到 不 同 精 度 = 和 不 同 概率 2 情况 下 随机 投 点 方法 的 试验 
次 数 ， 如 表 10.5 所 示 . 

2. 平均 值 方法 

平均 值 方 法 是 用 n 次 试验 的 平均 值 


1 
T= (i+ r+ -十 Tn) -ie 


作为 X 的 期 户 值 E(X) 的 近似 估 值 . 
设 有 7 个 独立 同 分 布 的 随机 变量 序列 zi x2,…, zn, 每 个 随机 变量 的 均值 为 
4 方差 为 o?, 则 
21 十 02 十 … :十 27 一 也 1 


ovVn 
浙 近 地 服从 标准 正 态 分 布 ， 也 就 是 说 ， 当 n 一 co 时 ， 有 


a/2 
P 有 ex (-22/2) dz =1—a, 
| < zp] 一 高 /et 9 
或 者 


21 十 22 十 "十 Zn 一 7 


ovVn 








P{E—n < Zo2Von) =]—a. 
Ee = Za 0 n, 


从 而 有 
和 (10.10) 
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式 (10.10) 即 为 平均 值 方法 在 给 定 a 和 = 下 所 需 的 试验 次 数 . 
在 进行 计算 时 ， 通 常 并 不 知道 方差 o”, 一 般 用 其 估计 值 代替 . 即 先 作 no 次 
试验 ， 得 到 方差 o? 的 估计 值 


1 忆 
Wt 
no—1 4 


在 得 到 5? 后 ， 用 5S? 近似 式 (10.10) 中 的 o?, 则 平均 值 方 法 的 试验 次 数 为 

a (10.11) 
若 n > no, 需要 作 补 充 试验 . 
例 10.6 用 平均 值 法 估计 圆周 率 An, 并 考虑 置信 度 为 5%, 精度 要 求 为 0.01 的 情 
况 下 所 需 的 试验 次 数 . 


解 : 事实 上 , 计算 r/4, 本 质 上 就 是 用 概率 的 方法 计算 积分 有 VI 一 22dzx. 也 
就 是 说 ， 随 机 变量 X ~ U1[0, 1], 令 g(X) = V1 一 X%, 其 期 望 值 为 


Box = 人 ps 让 VIP 一 工 
因此 ， 
了 = Elg(X)] > > Vi- (10.12) 


其 中 x; 是 [0,1] 区 间 上 均匀 分 布 的 随机 数 . 
按 式 (10.12) 编写 R 程序 (程序 名 : MC1_2.B) 
MC1_2 <- function(n){ 





x <- runif(n) 
4*sum(sqrt (1-x*2))/n 
} 
作 10 万 次 模拟 ， 
> Source('"MC1_2.R"); MC1_2(100000) 
[1] 3.141816 


10.1 概率 分 析 与 Monte Carlo 方法 569 


下 面 估计 所 需 的 试验 次 数 . 由 式 (10.10) 可 知 ， 其 关键 是 求 方差 o*. 由 统计 
知识 得 到 


1 2 
”= Blo(X)- (Bo) = f (sa (9) 
0 
2 AT\2 
区 =- (7) = 0.04981641 
此 时 ，a = 0.05, Zi = 1.96, 6 = 0.01/4, 所 以 ， 
2F2 .07 1.962 x 0.04981641 
| 
| 2 | ne | 30620. 


可 见 , 达到 同样 精度 的 情况 下 ,用 平均 值 法 的 随机 试验 次 数 只 是 随机 投 点 法 
的 1/3. 从 这 个 例子 可 以 看 出 ， 平 均值 法 要 优 于 随机 投 点 法 . 

从 例 10.6 的 计算 过 程 ， 可 以 得 到 用 平均 值 法 计算 一 般 定 积分 的 方法 . 

如 要 计算 定 积分 /9(z)dz. 令 y= (z 一 a)/(5 一 a), 则 有 dy= dz/(b 一 a)， 


1= gr= /oon6-ow= hay 


其 中 h(y) = (5 一 a)g(a + (ba)y). 
若 Y ~ U(0,1), 则 


sn)= 人 ~ ey 


所 以 ， 
~ FD hw) -1 gat (0—a)w), 


4 三 出 
其 中 及 是 [0.1 区 间 上 均匀 分 布 的 随机 数 . 

综 上 讨论 ， 可 归纳 如 下 : 

(1) Monte Carlo 方法 的 佑 值 精度 。 与 试验 次 数 n 的 平方 根 成 反比 ， 即 s cc 
1/Vn. 者 精度 = 提高 10 倍 ， 则 试验 次 数 n 需要 增加 100 倍 ， 这 意味 着 解 题 的 时 
间 要 慢 100 倍 . 故 收敛 速度 慢 是 Monte Carlo 方法 的 主要 缺点 . 

(2) 式 (10.9) 和 式 (10.11) 表明 : 当 s 一 定时 ， 试 验 次 数 n 取决 于 方差 的 数 
值 ， 即 ”cx 52. 因而 降低 方差 是 加 速 Monte Carlo 方法 收敛 的 主要 途径 . 

(3) Monte Carlo 方法 的 精度 估计 具有 概率 性 质 ， 它 并 不 能 断言 精度 一 定 小 
于 s, 而 只 是 表明 ， 计 算 精 度 以 接近 于 1 的 概率 不 超过 <. 
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10.2 ”随机 数 的 产生 


在 上 一 方 介绍 的 Monte Carlo 方法 中 ， 需 要 用 到 随机 数 ， 在 这 一 节 介绍 随机 
数 产 生 的 方法 : 

随机 数 产生 的 方法 大 致 可 分 为 三 类 ,第 一 类 是 利用 专门 的 随机 数 表 , 有 一 些 
已 制备 好 的 随机 数 表 可 供 使 用 , 原则 上 可 以 把 随机 数 表 输 入 到 计算 机 中 储存 起 来 
以 备 使 用 ,但 由 于 计算 时 常常 需要 大 量 的 随机 数 而 计算 机 的 储存 量 有 限 ， 因 此 这 
种 方法 一 般 不 采用 . 第 二 类 是 用 物理 装置 即 随机 数 发 生 器 产生 随机 数 ,但 其 成 本 
太 高 . 第 三 类 是 用 专门 的 数学 方法 用 计算 机 计算 出 来 的 . 这 些 数 一 般 是 按 一 定 规 
律 递 推 计算 出 来 的 ， 因 此 它们 不 是 真正 的 随机 数 ( 称 为 伪 随 机 数 )， 所 得 的 数列 
经 过 一 定时 间 会 出 现 周 期 性 的 重复 . 但 是 ， 如 果 计 算 方法 选 得 恰当 ， 它 们 是 可 以 
同 真 正 的 随机 数 有 近似 的 随机 特征 . 它 的 最 大 优点 是 计算 速度 快 , 占用 内 存 小 ， 
并 可 用 计算 机 来 产生 和 检验 . 

下 面 我 们 介绍 几 种 常用 的 随机 数 产生 的 方法 . 


10.2.1 ”均匀 分 布 随机 数 的 产生 
1. 乘 同 余 法 
用 以 产生 (0, 1) 均匀 分 布 随机 数 的 递 推 公式 为 
Ti=Mi (mod M) =1)2 (10.13) 


式 中 和 是 乘 因子 ( 简称 乘 子 )， M 是 模 数 ， 当 给 定 一 个 初始 值 zo 之 后 ， 就 可 以 
利用 式 (10.13), 计算 出 序列 zi, x2,…, zi …… 再 取 


Tj; 二 


Vi 
(10.14) 
则 六 就 是 均匀 分 布 的 第 i 个 随机 数 . 

由 于 zi 是 除数 为 M 的 被 除数 的 余数 ， 所 以 有 0 < zi < M, 则 0<r<1. 
因此 序列 {ri;} 是 (0, 1) 区 间 上 均匀 分 布 . 由 式 (10.13) 和 式 (10.14) 可 以 看 出 ， 
每 一 个 x; 、7; 至 多 有 M 个 互 异 的 值 ， 因 此 x; 、m 是 有 周期 工 的 , 即 工 < M. 
因此 {7;} 不 是 真正 的 随机 数列 . 但 是 ， 当 工 充分 大 ， 则 在 一 个 周期 内 的 数 可 能 
经 受 住 独立 性 和 均匀 性 检验 ， 而 这 些 完 全 取决 于 参数 zo 、 入 、M 的 选择 . 一 
些 文献 推荐 下 列 参 数 ， 取 zo = 1 或 正 奇数 ，M = 2*, 入 = 52211, 其 中 gq 都 
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是 正 整 数 ， 其 大 愈 大 ， 则 工 愈 大 .者 计算 机 位 数 为 n, 一 般 取 大 < n, 4 是 满足 
52+ < 2" 的 最 大 整数 . 


2. 混合 同 余 法 


混合 同 余 法 的 递 推 公式 为 
Xi = (AZzi 十 cmod M), 1 一 1) 2， (10.15) 
总 (10.16) 


通过 适当 的 选取 参数 可 以 改善 伪 随 机 数 的 统计 性 质 . 例如 , 若 c 取 正 整数 ，M = 
2*, 入 = 4g 十 1, zo 取 任 意 非 负 整 数 ， 可 产生 随机 性 好 ， 且 有 最 大 周期 L 一 2* 的 
序列 {ra}. 

10.2.2 ”均匀 随机 数 的 检验 


由 于 算法 产生 的 随机 数 是 伪 随 机 数 , 因此 需要 对 产生 的 伪 随 机 数 进行 统计 检 
验 ， 下 面 介绍 两 种 常用 的 检验 方法 . 

1. 参数 检验 

大 总 体 X 服从 (0,1) 区 间 上 的 均匀 分 布 ， 则 
Var(X) = E(X’) — [E(X)] = 五 


2 4 


D(X ,Var 2 


车 71,72,… ,Tn 是 n 个 来 自 总 体 关 的 独立 的 观测 值 ， 令 
je ts 
大 二 . 2 2 
则 它们 的 均值 和 方差 分 别 为 
1 | < 人 = ， 
大 一 一 大 ) 二 一 一 2 一 一 2 一 ”一 一 一 
E(7)= 3 Var (7) To E Gr | 3， Var G ) 2 


由 中 心 极限 定理 ， 当 n 较 大 时 统计 量 





ee A - mx (7 -3), (10.17) 
ee 
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渐 近 地 服 从 标准 正 态 分 布 N(0, 1). 当 给 定 显著 性 水 平 a 后 ， 即 可 根据 正 态 分 布 
表 确 定 的 临界 值 ， 判 断 7 与 X 的 均值 E(X) 和 万 与 X? 的 均值 E(X?) 的 差异 
是 否 显 著 ， 从 而 决定 能 否 把 ri ra … ,rn 看 成 来 自 总 体 为 区 间 (0, 1) 上 均匀 分 布 
的 随机 数 X 的 ”个 独立 的 取 值 ， 检 验 时 ， 一 般 可 取 显 著 性 水 平 a = 0.05, 此 时 
临界 值 为 1.96, 即 当 lu > 1.96 时 ， 认 为 有 显著 差异 

2. 均匀 性 检验 

随机 数 的 均匀 性 检验 又 称 频率 检验 , 它 用 来 检验 经 验 频率 和 理论 频率 是 否 有 
显著 性 差异 . 

把 区 间 [0, 1) 分 成 等 分 ， 以 | 下 全) 6 一 工 2 内 表示 第 1 个 子 区 
间 ， 如 7 是 [0,1) 上 均匀 分 布 的 随机 数 X 的 一 个 取 值 ， 则 它 落 在 每 个 子 区 间 的 
概率 均 应 等 于 这 些 子 区 间 的 长 度 二 故 n 个 点 中 落 在 第 i 个 子 区 间 上 的 平均 数 
为 mi = npi = 大, 设 实际 上 ,72,…,7n 中 属于 第 i 个子 区 间 的 数目 为 ww, 则 统 
计量 














k 
a (mi 到 六 @ (10.19) 
i i=1 


渐 近 地 服从 自由 度 为 上 一 1 的 x? 分布 据 此 进行 显著 性 检验 ， 通 常 取 显著 性 
水 平 a = 0.05, 由 自由 度 为 一 1 的 x* 分 布 表 查 出 临界 值 Xo.0s(k 一 1)， 如 果 
六 > Xb.os( 一 1), 则 拒绝 均匀 性 假设 . 

3. 独立 性 检验 

独立 性 检验 主要 检验 随机 数 71,72,.…, rn 中 前 后 的 统计 相关 性 是 否 显 著 . 我 
们 知道 ， 两 个 随机 变量 的 相关 系数 反映 了 它们 之 间 的 线性 相关 程度 . 者 两 个 随机 
变量 相互 独立 ， 则 它们 的 相关 系数 必 为 0( 反 之 不 一 定 ). 因此， 可 用 相关 系数 来 
检验 随机 变量 的 独立 性 . 

给 定 随机 数 71,72,.…,7n, 计算 前 后 相距 为 的 样本 的 相关 系数 


n—k 
1 _\2 2 
pk = (去 一 人 riritk — (7) )/s RR (10.20) 
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对 知 干 个 不 同 的 丰 值 做 检验 ， 提 出 原 假设 Ho : pk = 0. 者 假设 成 立 ， 则 
当 n 一 上 充分 大 时 ， 统 计量 px 渐 近 于 标准 正 态 分布 N(0,1). 在 给 定 显 著 性 水 平 
下 ， 者 拒绝 原 假设 ， 则 可 认为 71,72,…, Tn 有 一 定 的 线性 相关 性 ， 则 它们 不 是 相 
互 独立 的 . 

随机 数 的 统计 检验 除 上 述 三 种 检验 外 , 还 有 其 它 的 检验 方法 ,还 可 以 用 到 前 
面 章 节 讲 过 的 参数 或 非 参数 检验 方法 ， 这 里 就 不 一 一 介绍 了 . 





10.2.3 ”任意 分 布 随机 数 的 产生 


1. 离散 型 随机 变量 的 情形 
设 随机 变量 X 具有 分 布 律 PIX = 40} = puni = 42 令 p =0， 
-Dn i 二 1,2,…, 将 {p} 作为 区 间 (0,1) 上 的 分 位 点 . 设 7 是 区 间 (0, 1) 

上 均匀 分 布 的 随机 变量 ， 当 且 仅 当 信 汪 关 坟 区 出, 今 祷 二 则 











具体 的 执行 过 程 是 ， 每 产生 (0, 1) 区 间 上 的 一 个 随机 数 7, 若 p ?<7 < p99, 则 


例 10.7 产生 有 具有 分 布 律 





的 离散 型 随机 变量 X 的 随机 数 . 
解 : 设 71,72,…, Tn 是 (0,1) 上 均匀 分 布 的 随机 数 ， 令 
0，0<ri<0.3, 
zi= 1, 0.3<r7;<0.6, 
2,，0.6<ri<l, 


则 VX1, X22 ,Tn 是 具有 X 的 分 布 律 的 随机 数 . 
例 10.8 产生 Possion 分 布 的 随机 数 
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解 : Possion 分 布 是 离散 型 分 布 ， Possion 分 布 的 分 布 律 为 


入 CE 





PIX=N)e rs ke 0 (10.21) 
因此 ， 由 (0,1) 区 间 上 均匀 分 布 产生 的 随机 数 7, 并 给 出 参数 和 值 之 后 ， 可 由 
| k—1 i k MX 
e ee 2 k= 0,1,2,..., (10.22) 
j=0 j=0 


确定 出 上 值 ， 并 令 关 二, 则 XX 为 具有 Possion 分 布 (10.21) 的 随机 数 . 

2. 连续 型 随机 变量 的 情形 

一 般 地 讲 ， 对 具有 给 定 分 布 的 连续 型 随机 变量 X, 均 可 利用 (0, 1) 区 间 上 均 
匀 分 布 的 随机 数 来 产生 分 布 的 随机 数 ， 其 中 最 浓 用 的 方法 是 反 函 数 法 . 

设 连续 型 随机 变量 X 的 概率 密度 函数 为 (7), 令 


ja f(a 


则 7 为 (0,1) 区 间 上 均匀 分 布 的 随机 变量 ， 当 给 出 了 (0,1) 区 间 上 的 均匀 随机 数 
7T1,72,* 时 ， 可 根据 方程 


小- 0 ee (10.23) 
解 出 Zu 7X2,…. 此 时 Zi za 可 作为 随机 变量 X 的 随机 数 . 


例 10.9 产生 参数 为 和 的 指数 分 布 的 随机 数 . 
解 ， 由 于 指数 分 布 的 概率 密度 为 f(x) = Ae-Y(x > 0), 由 公式 (10.4) 得 到 
"= | eat=1-e i = 1,2,..…., 
0 
即 
Ti = -xmG 一 器， i= 1,2,.…- 
由 于 1 一 xi 与 7; 同 分 布 ， 故 上 式 可 简化 为 


1 
天 二 一 全 人 1 一 2,.…. (10.24) 


反 函 数 方法 是 一 种 普通 的 方法 ， 但 是 当 反 函数 难以 求 得 时 ， 此 方法 不 宜 使 
用 . 
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10.2.4 正 态 分 布 随 机 数 的 产生 
这 里 介绍 两 种 产生 正 态 分 布 随机 数 的 方法 . 
1. 极限 近似 法 
设 71,72,… ,Tn 是 (0,1) 区 间 上 nn 个 独立 的 均匀 分 布 的 随机 数 ， 由 中 心 极限 
定理 得 到 
jr7i—n/2 
_ i 
a (10.25) 
近似 地 服从 正 态 分 布 N(0,1). 为 了 保证 一 定 的 精度 ， 式 (10.25) 中 的 n 应 取得 足 
够 大 ， 一 般 大 约 取 n= 10 左右 ， 为 方便 起 见 ， 可 取 n= 12. 此 时 ， (10.25) 有 最 
简单 的 形式 


当 7; 是 (0,1) 上 的 随机 数 ， 则 1 一 也 是 (0,1) 上 的 随机 数 ， 因 此 式 (10.26) 
可 改写 为 


12 
这 三 DD 一 Tj. (10.27) 
i=1 i=7 
知 随 机 数 z 服从 N(0,1) 时 , 令 
y=oz+h, (10.28) 
则 y 是 正 态 N(u,o°) 的 随机 数 . 由 此 可 以 得 到 任意 参数 1,0” 的 正 态 分 布 的 随机 
数 . 
2. 坐标 变换 法 
可 以 证 明 ， 有 如 下 关系 ， 当 71,72 是 两 个 相互 独立 的 (0,1) 区 间 上 均匀 分 布 
的 随机 数 时 ， 作 变换 
X1= V—2lnricos(2n72), 7X2 = V—21lnri sin(2rr,). (10.29) 


则 zt, z2 是 两 个 独立 的 标准 正 态 分 布 N(0,1) 的 随机 数 , 再 由 式 (10.28), 可 以 得 
到 任意 参数 的 正 态 分 布 N(1,o”) 的 两 个 独立 的 随机 数 . 
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10.2.5 ”用 R 软件 生成 随机 数 

前 面 讲 了 各 种 产生 随机 数 的 方法 ， 实际 上 ， 有 很 多 软件 可 以 自动 生成 各 种 分 
布 的 随机 数 . 现 以 R 软件 为 例 ， 介 绍 用 计算 机 软件 生成 随机 数 的 方法 . 

在 R 软件 中 列 出 了 各 种 分 布 ( 见 第 3 章 的 表 3.1), 在 这 些 分 布 的 函数 前 加 T， 
则 表示 是 生成 该 分 布 的 随机 数 . 如 

(1) runif 一 产生 均匀 分 布 的 随机 数 ， 参 数 为 n,a,5, 其 中 nn 为 随机 数 的 个 
数 ，a,5 为 区 间 (a, 5) 端点 值 ， 当 a,? 省 缺 时 ， 为 (0,1) 区 间 上 的 随机 数 . 

(2) rnorm 一 产生 正 态 分 布 的 随机 数 ， 参 数 为 n, 1,o, 其 中 也 为 随机 数 的 个 
数 ， 为 均值 ，o 为 标准 差 ， 当 1,o 省 缺 时 ， 为 标准 正 态 分 布 N(0,1) 的 随机 
数 . 

(3) rpois 一 产生 Poisson 分 布 的 随机 数 ， 参 数 为 n, 入 , 其 中 n 为 随机 数 的 个 
数 ， 入 为 Poisson 分 布 的 参数 . 

R 软件 还 可 以 产生 其 他 分 布 的 随机 数 ， 这 里 就 不 一 一 列举 了 . 





10.3 ”系统 模拟 


系统 模拟 是 研究 系统 的 重要 方法 . 对 于 一 个 结构 复杂 的 系统 ， 要 建立 一 个 数 
学 模型 来 描述 它 是 非常 困难 的 ， 其 至 是 做 不 到 的 . 即使 能 构造 出 数学 模型 ， 但 由 
于 结构 复杂 ， 采 用 解析 的 方法 得 到 模型 的 解 也 并 非 易 事 ， 或 者 根本 得 不 到 解析 
解 ， 有 些 系统 ， 虽 然 结构 并 不 复杂 ， 但 其 内 部 机 理 有 不 明确 的 “法 箱 ” 系 统 ， 因 
此 无 法 采用 解析 的 方法 来 分 析 问 题 . 对 于 这 类 的 系统 , 采用 模拟 的 方法 不 失 为 一 
种 求解 的 好 方法 . 


10.3.1 ”连续 系统 模拟 


状态 随 着 时 间 连 续 变 化 的 系统 ， 称 为 连续 系统 . 我 们 知道 ， 电 子 计算 机 的 工 
作 状 态 是 离散 化 和 数字 化 的 . 因此 ， 对 连续 系统 的 计算 机 模拟 只 能 是 近似 的 ， 获 
得 的 是 系统 状态 在 一 些 离 散 抽 样 点 上 的 数值 . 不 过 ， 只 要 这 种 近似 达到 一 定 的 精 
度 ， 也 就 可 以 满足 要 求 了 . 

连续 系统 模拟 的 一 般 方法 是 首先 建立 系统 的 连续 模型 , 然后 转化 为 离散 模型 
并 对 该 模型 进行 模拟 ， 现 举例 说 明 . 
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例 10.10 (追逐 问题 ) 在 正方 形 4BOD 的 四 个 顶点 各 有 一 人 ， 在 某 一 时 刻 ， 四 人 
同时 出 发 以 匀速 v 走向 顺 时 针 方 向 的 下 一 个 人 . 如 果 他 们 的 方向 始终 保持 对 准 目 
标 ， 则 最 终 将 按 螺旋 状 曲线 汇合 于 中 心 点 O. 试 求 出 这 种 情况 下 每 个 人 的 轨迹 . 

解 : 这 一 问题 的 模拟 方法 是 ， 建 立 平面 直角 坐标 系 ， 以 时 间 间 隔 At 进行 采 
样 ， 在 每 一 时 刻 t 计算 每 个 人 在 下 一 时 刻 t 十 At 时 的 坐标 . 不 妨 设 甲 的 追逐 对 
象 是 乙 ， 在 时 间 t, 甲 的 坐标 为 (zt y), 乙 的 坐标 为 (x2,y2), 那么 甲 在 t 十 At 时 
的 坐标 为 (x1 十 vAtcos0,vi 十 vAtsin9), 其 中 


0 二 人 qd 三 V(za 一 21)2 十 (ya — Y1)?. 


选取 足够 小 的 At, 模拟 到 甲 、 乙 的 距离 小 于 vAt 为 止 . 

以 下 是 模拟 的 R 程序 (程序 名 : ”trace.R), ABCD 的 四 个 顶点 的 初始 位 置 
为 A(0,1), B(1,1), C(1,0), D(0,0). 

#### 画 出 A, B, C, D 和 〇 五 点 的 位 置 ， 再 作 标 记 

plot(c(0,1,1,0), c(0,0,1,1), xlab =" ", ylab = " ") 

text(0, 1, labels="A", adj=c( 0.3, 1.3)) 

text(1, 1, labels="B", adj=c( 1.5, 0.5)) 

text(1, 0, labels="C", adj=c( 0.3, -0.8)) 

text(0, 0, labels="D", adj=c(-0.5, 0.1)) 

points(0.5,0.5); text(0.5,0.5,1labels="0",adj=c(-1.0,0.3)) 

#### 将 计算 出 的 各 点 位 置 存 入 矩阵 X，Y 中 ， 

#### 又 是 ABCD 四 点 的 z 值 ，Y 是 ABCD 四 点 的 y 值 

delta_t<-0.01; n=110 


x<-matrix(0, nrow=5, ncol=n); x[,1]<-c(0,1,1,0,0) 


cosb = 



































y<-matrix(0, nrow=5, ncol=n); yl[,1]<-c(1,1,0,0,1) 
d<-c(0,0,0,0) 
for (j in 1:(n-1))t 
for (i in 1:4){ 
d[i]<-sqrt((x[i+1, j]-x[i,j]) 2+(y[i+1, j]-y[i,j])°2) 
x[i,j+1]<-x[i,jj+delta_t*(x[i+1,j]-x[i,j])/d[i] 
y[i,j+1]<-y[i,jj+delta_t*(y[i+1,j]-y[i,j])/d[i] 
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x[5,j+1]<-x[1, j+1]; y[5, j+1]<-y[1, j+1] 
} 
#### 画 出 相应 的 曲线 
for (i in 1:4) lines(x[i,], yl[i,]) 
连接 四 个 人 在 各 时 刻 的 位 置 ， 就 得 到 所 求 的 轨迹 ， 其 图 形 如 图 10.3 所 示 . 
































图 10.3: 追逐 问题 


连续 系统 的 描述 常常 用 到 常 微分 方程 或 微分 方程 组 , 而 求解 方法 则 需要 用 求 
解 微分 方程 的 数值 方法 ， 如 Runge-Kutta 法 等 ， 有 关连 续 系统 的 模拟 的 进一步 
讨论 ， 大 家 可 以 参见 有 关 书 籍 ， 这 里 就 不 论述 了 . 
10.3.2 ”离散 系统 模拟 
离散 系统 是 指 系统 状态 只 在 有 限 的 时 间 点 ,或 无 限 但 可 数 的 时 间 点 上 发 生变 
化 的 系统 .假设 离散 系统 状态 的 变化 是 在 一 个 时 间 点 上 瞬间 完成 的 ， 
例 10.11 用 模拟 的 方法 求解 例 10.1. 
解 : 设 
TI 一 火车 从 A 站 出 发 的 时 刻 ; 
一 火车 从 A 站 到 B 站 的 运行 时 间 ，; 
73 一 某 人 到 达 B 站 的 时 刻 . 
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该 人 能 赶 上 火车 的 充分 必要 条 件 是 TI 十 T2 > TD. 
假设 九 , 坟 , 3 均 是 随机 变量 , 且 7 ~ N(30, 2), ,1T3 的 分 布 律 由 表 10.3 
和 表 10.4 所 示 . 
设 71,72 是 (0,1) 区 间 上 均匀 分 布 的 随机 数 ， 则 了 和 的 分 布 律 的 模拟 公 
式 为 
28,，0<r2<0.3, 
30，0.3 < mr < 0.7, 


1 ee 
tl1 = 5， 0.7 < 7 < 0.9, ta = 
ee 


32，0.7 < 7a < 0.9， 
34， 0.9 < 72 所 工 . 
则 志和 妈 可 以 看 成 五, 到 的 一 个 观察 值 . 
令 tb 是 服从 正 态 分 布 Y(30,22) 的 随机 数 ， 则 将 ts 看 成 火车 运行 时 间 的 
一 个 观察 值 . 
在 每 次 试验 中 ， 产 生 两 个 V0(0,1) 的 随机 数 石 ,ts, 一 个 N(30,2”) 的 随机 数 
t2, 当 志 十 刀 > ts, 认为 试验 成 功 (能 够 赶 上 火车 ). 阁 在 n 次 试验 中 ， 有 次 成 
功 ， 则 用 频率 k/n 作为 此 人 赶 上 火车 的 概率 ， 当 n 很 大 时 ， 频 率 值 与 概率 值 近 
似 相等 . 
以 下 是 求解 过 程 的 R 程序 (程序 名 ;MC2.R). 
MC2<-function(n){ 
ri<-runif(n); r2<-runif(n); t2<-rnorm(n,30,2) 
ti<-array(0,dim=c(1,n)); t3<-t1; 
for(i in 1:n)t 
if (ri[i]<=0.7)t 
t1[i]<-0 
}else if (ri[i]<=0.9)1{ 
t1[i]<-5 
}else 
ti[i]<-10 
} 
for(i in 1:n)t 
if (r2[i]<=0.3)t{ 
t3[i]<-28 
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}else if (r2[i]<=0.7)t 
t3[i]<-30 
}else if (r2[i]<=0.9)1{ 
t3[i]<-32 
}else 
t3[i]<-34 
k<-0 
for(i in 1:n) 
if (t1[i]+t2[i]>t3[i]) k<-k+1 
k/n 

} 

作 一 万 次 试验 ， 得 到 

> source('"MC2.R"); MC2(10000) 

[1] 0.6306 
此 人 赶 上 火车 的 概率 大 约 是 0.63. 

例 10.12 核反应 堆 屏 项 层 设计 问题 . 

解 : 核反应 堆 屏蔽 层 是 用 一 定 厚 度 的 铅 (Pb), 把 反应 堆 四 周 包围 起 来 ， 用 以 
阻挡 或 减弱 反应 堆 发 出 的 各 种 射线 . 在 各 种 射线 中 , 中 子 对 人 体 伤害 极 大 , 因此 ， 
屏蔽 设计 ， 主 要 是 了 解 中 子 穿 透 屏蔽 的 百分比 (或 概率 ), 这 对 反应 堆 的 安全 运行 
是 至 关 重 要 的 . 首先 考虑 一 个 中 子 进 入 屏蔽 层 后 运动 的 物理 过 程 : 假定 屏蔽 层 是 
理想 的 均匀 平板 ， 中 子 以 初速 vo。 和 方向 角 a 射 入 屏 项 层 内 ( 见 图 10.4), 运动 一 
段 距离 后 ， 在 xo 处 与 铅 核磁 撞 之 后 ， 中 子 获得 新 的 速度 及 方向 (v1, 01), 再 运动 
一 段 距离 后 ， 与 馈 核 第 二 次 碰撞 ， 并 获得 新 的 状态 (v2, 9) 等 等 ， 经 若干 次 碰撞 
后 ， 发 生 以 下 情况 之 一 而 终止 运动 过 程 ， 

(1) 弹 回 反应 堆 ， (2) 穿 透 屏蔽 层 ，(3) 第 ; 次 碰撞 后 ,中 子 被 屏蔽 层 吸收 ， 

下 面 对 问 题 做 者 干 简化 与 假设 ; 

(1) 假定 屏蔽 层 平行 板 的 厚度 为 D = 3d, 其 中 d 为 两 次 碰撞 之 间 中 子 的 平均 
游 动 距离 ;每 次 碰撞 后 中 子 因 损 失 一 部 分 能 量 而 速度 下 降 ， 假 设 在 第 10 次 碰撞 
后 ， 中 子 速度 下 降 到 某 一 很 小 的 数值 而 终止 运动 (被 吸收 ). 由 于 对 穿 透 屏蔽 层 的 
中 子 感 兴趣 ， 故 用 (zz 9;) 描述 第 ;次 碰撞 后 中 子 的 运动 状态 ， 其 中 x; 为 中 子 在 
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Vo 


中 子 
Wn 
a 一 中 子 入 射 角 ， D 一 屏蔽 层 厚度 
9 一 ”中 子 第 一 次 碰撞 弹射 角 
图 10.4: 中 了 穿 入 屏蔽 层 的 运动 








| 


2 轴 上 的 位 置 ， 4 中 子 运动 的 方向 与 x 轴 的 夹 角 . 

(2) 假定 中 子 在 屏蔽 层 内 相继 两 次 碰撞 之 间 游 动 的 距离 服从 指数 分 布 ， 中 子 
经 碰撞 后 的 弹射 角 服从 (0, 27) 上 的 均匀 分 布 ， 从 而 得 到 第 i 次 碰撞 后 中 子 在 屏 
向 层 的 位 置 





Ti= Ti1t+ Ricost;, 1i1=1,2,...,10. (10.30) 


其 中 0; 是 中 子 第 i 次 碰撞 后 的 弹射 角度 ， Ri 是 中 子 从 第 i 一 1 次 碰撞 到 第 i 次 
碰撞 时 所 游 动 的 距离 ， 由 假设 可 能 得 到 ， 


R; = d.:(—1nr7;), 0; = 27r2i i= 1,2,..….,10. 


其 中 d 为 两 次 碰撞 之 间 中 子 的 平均 游 动 距离 ， ri,ui 是 (0,1) 区 间 上 均匀 分 布 的 
随机 数 ， 式 (10.30) 表明 了 中 子 在 屏蔽 层 内 运动 的 概率 模型 ， 可 见 中 子 运动 的 位 
置 和 方向 都 是 随机 的 . 

(3) 在 第 i 次 碰撞 后 ， 中 子 的 位 置 z; 有 三 种 情况 发 生 : 

i) zi; < 0, 中 子 返回 反应 堆 ; 

i) zi > D, 中 子 穿 出 屏 项 层 ; 
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六) 0 < xi < D, 蔡 i < 10, 则 中 子 在 屏蔽 层 内 继续 运动 ; 若 ?= 10, 则 中 子 被 
屏蔽 层 吸收 . 
中 子 运 动 的 三 种 模式 如 图 10.5 所 示 . 为 简化 问题 ， 假 定 中 子 入 射 角 a = 0( 即 中 


返回 


吸收 


图 10.5: 中 子 在 屏蔽 层 内 运动 的 三 种 模式 











子 以 垂直 方向 穿 入 屏蔽 居 ), 屏蔽 层 的 厚度 为 D = 3d. 
下 面 是 用 R 软件 编写 的 模拟 程序 (程序 名 : MC3.R). 
MC3<-function(Cn)T 
D<-3; pi<-3.1416; back<-0; absorb<-0; pierce<-0 
for (k in 1:n){ 
x<- -log(runif(1)) 
for (i in 1:10){ 
index <- 1 
r <- runif(2); R <- -log(r[1]); t <- 2*pix*r[2] 
x <-xX+R* cos(t) 
if (x<0) { 
back<-back+1; index<-0; break 
}else if (x>D){ 
pierce<-piercet+1; index<-0; break 
}else 


next 
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if (index==1) 
absorb<-absorb+1 
} 
data.frame(Pierce=pierce/n*100, Absorb=absorb/n*100, 
Back=back/n*100) 
} 


表 10.6 列 出 的 是 上 述 程序 计算 的 结果 . 
re 


中 于 数 (个 返回 ( 


100 54.0 
1000 55.4 
3000 56.4 
5000 57.0 





表 10.6 表明 ， 取 屏蔽 层 厚度 D = 3d 是 不 合适 的 ， 因 为 此 时 中 子 穿 透 屏蔽 层 
的 百分比 在 1/3 左右 .而 在 实际 应 用 中 ， 要 求 中 子 穿 透 屏蔽 层 的 概率 极 小 ， 一 般 
数量 级 为 10-” ~ 10 即 穿 入 屏蔽 层 的 中 子 若 为 几 百 万 个 ， 也 只 能 有 几 个 中 
子 穿 过 屏蔽 层 . 问题 是 多 厚 的 屏蔽 层 才 能 使 它 被 穿 透 的 概率 Wp < 10 7 

值得 注意 的 是 ， 仅 模拟 5000 个 中 子 的 运动 ， 就 用 其 穿 透 屏 蔽 层 的 频率 来 估 
计 穿 透 屏蔽 层 的 概率 总 在 “勉强 ”之 嫌 ， 因 为 这 时 的 模拟 精度 只 有 1%, 欲 提 高 模 
拟 精 度 ， 应 适当 增加 模拟 次 数 . 第 二 个 问题 是 ， 需 要 模拟 多 少 个 中 子 的 运动 ， 才 
能 用 频率 估计 其 概率 ? 

先 回答 第 二 个 问题 . 由 10.1 节 关 于 模拟 精度 与 模拟 次 数 的 讨论 , 由 式 (10.9) 
可 以 得 到 ， 若 使 模拟 精度 达到 千 分 之 一 ， 则 模拟 次 数 要 在 105 次 以 上 . 由 于 中 子 
穿 透 概率 在 10 5 以 下 ， 所 以 其 精度 至 少 应 达到 这 个 数量 级 ， 那 么 模拟 次 数 就 应 
在 102” 次 以 上 ， 这 一 要 求 在 通常 的 情况 下 ， 显 然 是 行 不 通 的 . 

我 们 采用 如 下 的 解决 办 法 . 将 均匀 平行 板 分 为 厚度 相同 的 m 层 ， 只 取 一 层 
作 模 拟 . 设 中 子 在 这 一 层 中 吸收 和 弹 回 的 概率 之 和 为 W, 则 穿 过 一 层 的 概率 是 
(1 一 W), 因而 罕 透 m 层 的 概率 是 (1 一 W)”". 由 于 中 子 穿 过 一 层 的 平均 速度 有 所 
下 降 ， 因 而 总 穿 透 概率 比 (1 一 W)” 要 小 . 
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用 Monte Carlo 方法 ， 先 模拟 10000 个 中 子 的 运动 时 ， 可 以 保证 (1 一 W) 的 
精度 要 小 于 1%. 经 m 层 后 有 (1 一 W)” < (0.01)m, 若 取 mm = 3, 就 可 获得 穿 透 
概率 (1 一 环 ) < (0.01)2 = 10 5. 这 样 处 理 后 ， 不 必 作 高 达 10 的 实验 ， 只 需 作 
104 次 试验 就 可 达到 10- 的 精度 ， 这 一 改进 比 直接 方法 大 大 加 快 了 收敛 速度 ， 
减少 了 模拟 时 间 . 

利用 R 程序 (MC3.R), 作 10000 次 模拟 ,得 到 ， 当 D = 3d 时 ， 穿 透 概率 为 
Wsa < 1/3, 问题 是 多 厚 的 屏蔽 层 才 能 使 Wp < 0.01? 

设 需 要 的 屏蔽 厚度 为 z, 则 (Waa)*” < 0.01, 或 3* > 100, 即 

lgl100 2 _ 
lg3 ”0.47712 





4.1918. 


即 屏蔽 层 的 厚度 在 达到 4.1918D 3 13d, 才能 使 中 子 穿 透 概率 不 大 于 0.01. 
这 时 可 以 回答 第 一 个 问题 了 ， 若 使 Wp < 10“", 则 总 厚度 为 


TD = 3x = 39d. 











也 就 是 说 ， 屏 项 层 总 厚度 为 39d 时 ， 可 使 中 子 穿 透 屏蔽 层 的 概率 Wp < 10™. 


10.4 模拟 方法 在 排队 论 中 的 应 用 


排队 论 (Queueing Theory) 又 称 随 机 服务 系统 ， 是 通过 研究 各 种 服务 系统 等 
待 现象 中 的 概率 特征 ， 从 而 解决 服务 系统 最 优 设计 与 最 优 控 制 的 一 种 理论 . 

排队 论 属于 随机 过 程 的 一 部 分 , 这 里 以 排队 模型 为 例子 来 说 明 此 类 问题 的 随 
机 模拟 方法 . 在 介绍 模型 方法 之 前 ， 先 简单 介绍 排队 论 的 基本 概念 . 


10.4.1 ”排队 服务 系统 的 基本 概念 


1. 排队 的 例子 
例 10.13 某 维 修 中 心 在 周末 只 安排 一 名 员工 为 顾客 提供 服务 ， 新 来 维修 的 顾客 
到 达 后 ， 若 已 有 顾客 正在 接受 服务 ， 则 需要 排队 等 待 . 车 排队 的 人 数 过 多 ， 势 必 
会 造成 顾客 抱 忽 ,会 影响 到 公司 产品 的 销售 ， 若 维修 人 员 多 ,会 增加 维修 中 心 的 
支出 ， 如 何 调整 两 者 的 关系 ， 使 得 系统 达到 最 优 . 
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例 10.13 是 一 个 典型 的 排队 的 例子 ， 关 于 排队 的 例子 有 很 多 ， 例 如 :上 下 班 
坐 公交 和 车， 等待 公交 车 的 排队 ; 顾客 到 商店 购物 形成 的 排队 ; 病人 到 医院 看 病 形 
成 的 排队 ; 故 售 票 处 购 票 形成 的 排队 等 ， 男 一 种 排队 是 物 的 排队 ， 例 如 文件 等 待 
打印 或 发 送 ;路 口红 灯 下 面 的 汽车 、 自 行车 通过 十 字 路 口 . 

排队 现象 是 由 两 个 方面 构成 ， 一 方 要 求 得 到 服务 ， 另 一 方 设法 给 予 服务 . 我 
们 把 要 求 得 到 服务 的 人 或 物 (设备 ) 统称 为 顾客 、 给 予 服务 的 服务 人 员 或 服务 机 
构 统称 为 服务 员 或 服务 台 . 顾客 与 服务 台 就 构成 一 个 排队 系统 . 或 称 为 随机 服务 
系统 ， 显然， 缺少 顾客 或 服务 台 任何 一 方 都 不 会 形成 排队 系统 . 

对 于 任何 一 个 排队 服务 系统 , 每 一 名 顾客 通过 排队 服务 系统 总 要 经 过 如 下 过 
程 : 顾客 到 达 、 排 队 等 待 、 接 受 服务 和 离 去 ， 其 过 程 如 图 10.6 所 示 . 


服务 系统 








顾客 总 体 





图 10.6: 服务 系统 的 描述 


2. 排队 服务 系统 的 基本 概念 

(1) 输入 过 程 

输入 过 程 是 描述 顾客 来 源 及 顾客 是 按 怎 样 的 规律 抵达 排队 系统 .。 a) 顾客 源 
总 体 : 顾客 的 来 源 可 能 是 有 限 的 ， 也 可 能 是 无 限 的 ， 例 如 工厂 内 发 生 故 障 待 修 的 
机 器 是 有 限 的 ; 到达 和 窗口 购 票 的 顾客 总 体 可 以 看 成 是 无 限 的 .b) 到 达 的 类 型 ， 
顾客 是 单个 到 达 , 或 是 成 批 到 达 , 例如 工厂 内 发 生 故 障 待 修 的 机 器 是 单个 到 达 ， 
在 库存 问题 中 ， 进 货 看 成 顾客 到 达 、 就 是 成 批 到 达 的 例子 . c) 相继 顾客 到 达 的 
间隔 时 间 :， 通常 假定 是 相互 独立 、 同 分 布 的 ， 有 的 是 等 距 间 隔 时 间 ， 有 的 是 服从 
Poisson 分 布 ， 有 的 是 服从 天 阶 Erlang 分 布 . 

(2) 排队 规则 

排队 规则 是 指 服务 允许 不 允许 排队 ， 顾 客 是 否 愿 意 排队 . 常见 的 排队 规则 有 
如 下 几 种 情况 a) 损失 制 排队 系统 : 顾客 到 达 时 , 知 有 服务 台 均 被 占 ， 服 务 机 构 
又 不 允许 顾客 等 待 ， 此 时 该 顾客 就 自动 辞去 , 例如 通常 使 用 的 损失 制 电 话 系 统 . 
b) 等 待 制 排队 系统 : 顾客 到 达 时 . 若 所 有 服务 台 均 被 占 ， 他 们 就 排队 等 待 服务 . 
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在 等 待 制 系统 中 ， 服 务 顺序 又 分 为 : 先 到 先 服务 ， 即 顾客 按 到 达 的 先后 顺序 接受 
服务 ;后 到 先 服 务 ， 例 如 情报 系统 、 天 气 预报 资料 总 是 后 到 的 信息 越 重要 ， 要 先 
处 理 ; 随 机 服务 ， 即 在 等 待 的 顾客 中 随机 地 挑选 一 个 顾客 进行 服务 ,例如 电话 员 
接线 就 是 用 这 种 方式 工作 ， 有 优先 权 的 服务 ， 即 在 排队 等 待 的 顾客 中 . 茶 些 类 型 
的 顾客 具有 持 殊 性 ， 在 服务 顺序 上 要 给 予 特别 待遇 ， 让 他 们 先 得 到 服务 ， 例 如 病 
危 人 先 治 疗 ， 带 小 孩 的 顾客 先进 站 等 . c) 混合 制 排队 系 统 ， 损失 制 与 等 符 制 的 
混合 , 分 为 队长 ( 容量) 有 限 的 混合 制 系统 ， 等 待 时 间 有 限 的 混合 制 系统 ， 以 及 
逗留 时 间 有 限制 的 混合 系统 . 

(3) 服务 机 构 

服务 机 构 主 要 包括 以 下 几 个 方面 : a) 服务 台 的 数目 ,在 多 个 服务 台 的 情形 
下 ， 是 串联 或 是 并 联 : b) 顾客 所 需 的 服务 时 间 服 从 什么 样 的 概率 分 布 ， 每 个 顾 
客 所 需 的 服务 时 间 是 否 相互 独立 ， 是 成 批 服务 或 是 单个 服务 等 . 常见 顾客 的 服务 
时 间 分 布 有 : 定 长 分 布 、 指 数 分 布 、 超 指数 分 布 、k 阶 Erlang 分 布 、 几 何 分 布 、 
一 般 分 布 等 . 


3. 符号 表示 
排队 论 模型 的 记号 是 20 世纪 50 年 代 初 由 D. G. Kendall ( 肯 达 尔 ) 引入 的 ， 
通常 由 3 ~ 5 个 英文 字母 组 成 ， 其 形式 为 
A/B/C/n 


其 中 4 表示 输入 过 程 ， B 表示 服务 时 间 ， C 表示 服务 台数 目 ， n 表示 系统 空 
间 数 .例如 : 

(1) M/M/S/% 表示 输入 过 程 是 Poisson 流 ， 服 务 时 间 服 从 指数 分 布 ， 系 统 
有 9 个 服务 台 平行 服务 ， 系 统 容 量 为 无 穷 的 等 待 制 排队 系统 . 

(2) M/G/1/% 表示 输入 过 程 是 Poisson 流 ， 顾 客 所 需 的 服务 时 间 为 独立 、 
服从 一 般 概率 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 容 量 为 无 穷 的 等 待 制 系统 . 

(3) GI/M/1/% 表示 输入 过 程 为 顾客 独立 到 达 且 相继 到 达 的 间隔 时 间 服 从 
一 般 概率 分 布 ， 服 务 时 间 是 相互 独立 、 服 从 指数 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 
容量 为 无 穷 的 等 待 制 系统 . 

(4) Ex/G/1/K 表示 相继 到 达 的 间隔 时 间 独 立 、 服 从 阶 Erlang 分 布 ， 服 
务 时 间 为 独立 、 服 从 一 般 概率 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 容 量 为 的 混合 
制 系统 . 
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(5) D/M/S/K 表示 相继 到 达 的 间隔 时 间 独 立 、 服 从 定 长 分 布 、 服 务 时 间 相 
互 独立 、 服 从 指数 分 布 ， 系 统 中 有 5 个 服务 台 平行 服务 ， 容 量 为 天 的 混合 制 系 
统 . 

4. 描述 排队 系统 的 主要 数量 指标 

(1) 队长 (Ls) 

队长 是 指 在 系统 中 的 顾客 的 平均 数 ( 包括 正在 接受 服务 的 顾客 ). 

(2) 顾客 的 平均 等 待 时 间 与 平均 逗留 时 间 (W) 

顾客 的 平均 等 待 时 间 是 指 从 顾客 进入 系统 的 时 刻 起 直到 开始 接受 服务 止 的 
平均 时 间 . 平均 逗留 时 间 是 指 顾客 在 系统 中 的 平均 等 待 时 间 与 平均 服务 时 间 之 
和 .平均 等 待 时 间 与 平均 服务 时 间 是 顾客 最 关心 的 数量 指标 . 

(3) 系统 的 忙 期 与 闲 期 

从 顾客 到 达 空 闲 的 系统 ， 服 务 立 即 开 始 ， 直 到 系统 再 次 变 为 空 闪 ， 这 上段 时 间 
是 系统 连续 繁忙 的 时 间 , 我 们 称 为 系统 的 忙 期 , 它 反 映 了 系统 中 服务 机 构 的 工作 
强度 ， 是 衡量 服务 机 构 利 用 效率 的 指标 . 














10.4.2 ”排队 模型 模拟 的 关键 


1. 关键 变量 
模型 模拟 的 关键 变量 是 事件 ， 以 及 每 个 事件 发 生 的 时 间 . 由 于 排队 模型 中 的 
每 个 事件 是 按时 间 发 和 后 的 ， 例 如 在 某 时 刻 有 顾客 到 达 ， 某 时 刻 有 顾客 离开 (服务 
完成 ) 等 ， 因 此 进行 模拟 有 三 个 关键 变量 : 
(1) 时 间 变 量 . 记录 系统 发 生 某 一 事件 的 时 间 ， 如 顾客 到 达 或 顾客 离开 . 
(2) 计数 变量 . 当前 在 服务 系统 中 顾客 的 个 数 . 
(3) 系统 状态 变量 . 系统 的 状态 ， 如 系统 是 空闲 还 繁忙 ， 系 统 中 顾客 的 个 数 ， 分 
别 在 哪个 服务 如 人 台 接 受 服务 等 
有 了 这 三 个 关键 变量 ， 其 他 变量 就 好 处 理 了 . 
2. Poisson 过 程 的 模拟 


在 排队 服务 系统 中 ,通常 假设 顾客 的 到 达 时 间 和 接受 的 时 间 服 从 Poisson 过 
程 ， 因 此 ， 对 于 Poisson 过 程 的 模拟 是 十 分 重要 的 . 














Ne Wt 
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由 概率 知识 可 知 ， 当 随机 过 程 是 强度 为 和 的 Poisson 过 程 时 ， 其 点 间 间 距 是 
相互 独立 的 随机 变量 ， 且 服从 参数 为 和 的 指数 分 布 ， 即 





Me *, +t>0, 
fr(t) = 1 = 2,3,.…, 
0, 1< 0， 
1— Me * +>0, 
Fr,(t) = A 
0, t<0, 
因此 ， 有 


1 
t=—F (1 — Fn(b)). 


由 于 Fxn(t) ~ U0(0,1), 则 1 一 Fr,(t) ~ UV(0,1), 因此 ， 模 拟 Poisson 过 程 到 达 
的 时 间 间 隔 公式 为 


1 
和 和 (10.31) 


10.4.3 ”等 待 制 排队 模型 的 模拟 
等 竺 制 排队 模型 中 最 常见 的 模型 是 M/M/5/co, 即 顾客 到 达 系 统 的 相继 到 
达 时 间 间 隔 独立 ， 且 服从 参数 为 和 的 指数 分 布 ( 即 输入 过 程 为 Poisson 过 程 )， 
服务 台 的 服务 时 间 也 独立 同 分 布 ， 且 服从 参数 为 / 的 指数 分 布 ， 而 且 系统 空间 
无 限 ， 人 允许 永远 排队 . 
1. 5=1 的 情况 (M/M/1/%) 
系统 变量 
单一 变量 
t ”一 时间 变量 NA 一 在 t 时 刻 到 达 系 统 的 顾客 总 数 
ta 一 顾客 的 到 达 时 间 n 一 在 t 时 刻 当前 达 系 统 的 顾客 数 
tp 一 顾客 的 离开 时 间 7 一 总 服务 时 间 
数组 变量 (以 大 为 自 变量 ) 
wi 一 记录 发 生 事件 的 时 间 ww， 一 记录 系统 中 的 顾客 数 
ws 一 记录 上 一 事件 到 下 一 事件 的 间隔 时 间 
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模拟 算法 I 

(1) 初始 步 : 置 + 二 Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 70, 置 t4 = To， 
tp = oo( 此 时 系统 中 无 顾客 ). 置 上 = 0. 

(2) 记录 系统 状态 . 置 大 = 有 二 1 ap) ==t wn(k) = 二 n. 如 果 t4 <7, 则 置 


ws(k) = min(ta, tp) 一 由 


然后 转 (3); 否则 置 
0, tp = OO， 
ws(k) = | 


tp—t, tp<o%, 
然后 转 (8). 

(3) 如 果 t4 < tp, 则 置 t = t4, Na = Na 十 1( 顾 客 到 达 总 数 十 1), n 二 nn 十 1( 系 
统 中 顾客 数 +]1), 产生 下 一 顾客 到 达 系 统 的 时 间 ta4. 

(4) 如 果 n = 1, 产生 服务 台 上 顾客 的 离开 时 间 tp. 

(5) 如 果 ta > tp, 则 置 t= tp, n =n 一 1( 系 统 中 顾客 数 一 1). 

(6) 如 果 n = 0( 系 统 中 无 顾客 ), 置 tp = coi 否则 产生 服务 台 上 顾客 的 离开 
时 间 Tp. 

(7) 转 (2). 

(8) (此 时 ta > 下, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 如果 n > 
0( 系 统 中 还 有 顾客 ), 并 置 上 = tp, n = n 一 1( 系 统 中 顾客 数 一 1). 如 果 n > 0, 产 
生 服 务 台 上 顾客 的 离开 时 间 7D, 然后 转 (2); 否则 转 (9). 

(9) 计算 队长 (Ls) 、 平 均 逗 留 时 间 〈。) 和 顾客 等 待 的 概率 (Pait). 


L, = FD wk) .walk), 


k 
1 
Ws, = ”一 一 ws(k): wn(k), 
让 于 ww 
1 
wait a bp ws(k), 
wn(k)>1 


停止 计算 ， 输出 Ls 、 Ws 和 vait: 
R 程序 (程序 名 ”queuel .BR) 
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queue1l<-function(lambda, mu, T){ 
k<-0; wt<-0; wn<-0; ws<-0; 
tp<-0; nA<-0; n<-0; t<-0 
r<-runif(1); tA<--1/lambda*log(r); tD<-Inf 


repeat{ 
k<-k+1; wt[k]<-t; wn[k]<-n 
if (tA < T){ 


ws[k]<-min(tA, tD)-t 
if (tA < tD){ 
t<-tA; n<-n+1i; nA<-nA+1 
r<-runif(1); tA<-t-1/lambda*log(r) 
if (n==1){ 
r<-runif (1); tD<-t-1/mu*log(r) 
} 
J}elset{ 
t<-tD; n<-n-1 
if (n==0){ 
tD<-Inf 
}else{ 
r<-runif (1); tD<-t-1/mu*log(r) 


} 
}else{ 
ws[k] <-if(tD==Inf) 0 else tD-t 
if (n>0){ 
t<-tD; n<-n-1 
if (n>0){ 
r<-runif (1); tD<-t-1/mu*log(r) 


}else 
tp<-1 
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} 
if (tp==1) break 
} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Pwait=sum(ws [wn>=1] )/t) 
} 
例 10.14 某 维修 中 心 在 周末 现 只 安排 一 名 员工 为 顾客 提供 服务 .新 来 维修 的 顾 
客 到 达 后 ， 车 已 有 顾客 正在 接受 服务 ， 则 需要 排队 等 待 . 假设 来 维修 的 顾客 到 达 
过 程 为 Poisson 流 ， 平 均 4 人 /小 时 ， 维 修 时 间 服 从 指数 分 布 ， 平 均 需 要 6 分 
钟 ， 试 用 模拟 的 方法 求 该 系统 的 的 队长 (L。) 、 平 均 运 留 时 间 (Ws) 和 顾客 等 待 
的 概率 (系统 繁忙 概 举 ) (Pait). 
解 : 调用 编 好 的 程序 queue1 .RB, 输入 相应 的 参数 指标 ， 模 拟 1000 小 时 的 排 
队 服 从 系统 的 运行 情况 ， 
> source("queuel.R'") 
> queueli(lambda=4, mu=10, T=1000) 
Ls Ws Pwait 
1 0.6938313 0.1685005 0.4118629 


其 理论 值 为 Ls = 0.6666667( 人 ), Ws = 0.1666667( 小 时 ). Pyait = 0.4. 
例 10.15 在 商业 中 心 处 设置 一 台 ATM 机 ， 假 设 来 取 钱 的 顾客 平均 每 分 钟 0.6 
个 ， 而 每 个 顾客 的 平均 取 钱 的 时 间 为 1.25 分 钟 ， 试 用 模拟 的 方法 求 该 ATM 机 
的 队长 (Ls) 、\ 平均 运 留 时 间 (Ws) 和 顾客 等 待 的 概率 (Fa 

解 : 模拟 10000 分 钟 的 排队 服从 系统 的 运行 情况 ， 

> queuel1(lambda=0.6，mu=0.8，T=10000) 

LS Ws Pwait 
1 2.949336 4.895917 0.7577775 


其 理论 值 为 工 . = 5( 人 ), Ws = 5( 分 钟 ). Ps = 0.75. 
从 上 面 两 个 例子 可 以 看 出 ， 模 拟 值 与 理论 值 还 是 很 接近 的 . 
2. 5 > 1 的 情况 (M/M/ S/o) 


系 变量 
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对 于 5 > 1 的 情况 ， 变 量 意义 基本 上 与 5 = 1 的 情况 相同 ， 只 是 此 时 的 tp 
为 数组 ， 增 加 一 个 状态 变量 $9, 记录 系统 的 状态 情况 . 

模拟 算法 工 

(1) 初始 步 : 置 + = Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 To, 置 t4 = 
To, tp(i) = oo,i = 1,2,.…,S( 此 时 系统 中 无 顾客 ). SS(i) = 0,i = 1 2 ,9 十 
1(SS(1) 记录 系统 当前 状态 的 顾客 数 ，SS(2 ~ 5S 十 1) 记录 5 个 服务 台 的 工作 状 
态 ， 0 为 空间 ，1 为 工作 ), 置 上 = 0. 

(2) 如 果 SS(1) = 0, 则 置 五 = co = 1; 否则 置 妇 = min(tp), 全 = 
argmin(tp). 


(3) 记录 系统 状态 . 置 二 上 十 1, wi(k) = t, wn(k) 二 儿 . 如 果 tA< 二 ， 则 置 








ws(k) = min(ta,t1) 一 二 


然后 转 (4); 否则 置 


0, ti1 一 Oo， 
ws() = 
ti—t, ti<o%, 


然后 转 (11). 

(4) 如 果 ta < 三, 则 置 t+=t4, Na = Na 十 1( 顾 客 到 达 总 数 十 1), 产生 下 一 顾 
客 到 达 系 统 的 时 间 7T4. 置 n = 5S(1), $5(1) =n 十 1( 系 统 中 顾客 数 十) 

(5) 对 于 i 二 1,2,…,5, 如 果 SS(1 十 纪 = 0( 第 ;个 服务 台 空 亲 )， 则 置 
SS(1 十 引 二 1( 将 系统 中 的 顾客 分 配给 第 i 个 服务 台 ， 开 始 服 务 ), 产生 第 i 个 服 
务 台 上 顾客 离开 的 时 间 Tp(i), 然后 中 止 循环 . 

(6) 如 果 t4 > 如 , 则 置 t= ,n= SS(1), $5S(1) =n 一 1( 系 统 中 顾客 数 一 1). 
7) 如 果 n = 1( 系 统 中 无 顾客 ), 置 SS(1 + 让 = 0, tp(i)j = 00,i=1,2,.…,5. 
8) 如 果 n < 5, 置 $5(1 十 ) =0tpa) = oo( 第 生 个 服务 台 空 闪 ). 

9) 如 果 n > 5, 产生 顾客 离开 第 i1 个 服务 台 的 时 间 Tp(1). 

10) 转 (2). 

11) (此 时 t4 > 7, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 置 n = 
SS(1). 如 果 n > 0, 则 置 上 = tp, 95(1) = n 一 1( 系 统 中 顾客 数 一 1), 然后 转 (7); 
否则 转 (12). 


i me) oD re 


i 
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(12) 计算 队长 (Zs) 、 平 均 逗 留 时 间 〈 丈 ,) 和 顾客 等 待 的 概率 (Pvait). 


Ls se ws(k) “ wn(k), 
Ws = ~ > ,ws(k) .wna(k), 
Pa = > DD wlk), 


停止 计算 ， 输 出 Ls。、 Ws 和 Pait. 
R 程序 (程序 名 ;queue2.R) 
queue2<-function(lambda, mu, T, S=2){ 
k<-0; wt<-0; wn<-0; ws<-0 
tp<-0; nA<-0; t<-0 
r<-runif (1); tA<--1/lambda*log(r) 
tD<-rep(Inf, S); SS<-rep(0, S+1) 


repeat{ 
t1<-if (SS[1]==0) Inf else min(tD) 
i1<-if(SS[1]==0) 1 else which.min(tD) 
k<-k+1; wt[k]<-t; wn[k]<-SS[1] 
if (tA < T){ 
ws[k]<-min(tA, t1)-t 
if (tA < t1){ 
t<-tA; nA<-nA+1 
r<-runif(1); tA<-t-1/lambda*log(r) 
n<-SS[1]; SS [1] <-n+1 
for (i in 1:S){ 
if (SS[1+i]==0)+ 
SS [1+i]<-=-1 
r<-runif (1); tD[i]<-t-1/mu*log(r) 


break 
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} 
}elset{ 
t<-ti; n<-SS[1]; SS[1]<-n-1 
if (n==1){ 
SS[2:(S+1)]<-0; tD[1:S]<-Inf 
}else if (n<=S)+ 
SS[1+i1]<-0; tD[i1]<-Inf 
}elselt 
r<-runif(1); tD[i1]<-t-1/mu*log(r) 


} 
} 
}elset{ 
ws[k]<- if( t1==Inf) 0 else t1-t 
n<-SS[1] 
if (n>0){ 
t<-t1i; SS[1]<-n-1; 
if (n==1){ 


SS[2:(S+1)]<-0; tD[1:S]<-Inf 
}else if (n<=S)+ 

SS[1+i1]<-0; tD[i1]<-Inf 
jelset 

r<-runif (1); tD[i1]<-t-1/mu*log(r) 


} 
J}else 
tp<-1 
. 
if (tp==1) break 


} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Pwait=sum(ws [wn>=S] )/t) 
} 
例 10.16 设 打 印 室 有 3 名 打字 员 , 平均 每 个 文件 的 打印 时 间 为 10 分 钟 ， 而 文件 
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的 到 达 率 为 每 小 时 15 件 ， 试 用 模拟 的 方法 求 该 打印 室 文 件 的 队长 (Ls) 、 文 件 的 
平均 过 留 时 间 (Ws。) 和 文件 等 待 的 概率 (Puait)， 

解 : 调用 编 好 的 程序 queue2 .BR, 输入 相应 的 参数 指标 ， 模 拟 1000 小 时 的 排 
队 服 从 系统 的 运行 情况 ， 

> Source("queue2.R") 

> queue2(lambda=15, mu=6, T=1000, S=3) 

Ls Ws Pwait 

1 5.980315 0.4010408 0.7002678 

其 理论 值 为 Ls = 6.011236( 件 ), Ws = 0.4007491( 小 时 ). Pait = 0.7022472. 


10.4.4 ”损失 制 与 混合 制 排队 模型 


损失 制 排队 模型 通常 记 为 M/M/S/5, 当 5 个 服务 器 被 占用 后 ， 顾 客 自动 离 

去 . 
混合 制 排 队 模型 通常 记 为 M/M/S5/K, 即 有 3 个 服务 台 或 服务 员 ， 系 统 空 

间 容 量 为 人 (K > 5), 当天 个 位 置 已 被 顾客 占用 时 ， 新 到 的 顾客 自动 离 去 ， 当 系 
统 中 有 空位 置 时 ， 新 到 的 顾客 进入 系统 排队 等 待 . 当 K = S 时 ， 混 合 制 排 队 模 
型 就 退化 成 损失 制 排队 模型 . 

这 里 只 给 出 混合 制 排 队 模 型 的 模拟 情况 ， 因 为 当 KK = 9 时 ， 就 是 损失 制 排 
队 模 型 的 情况 . 在 前 面 给 出 等 待 制 模型 的 模拟 后 , 混合 制 排队 模型 的 模拟 就 简单 
多 了 ， 只 需 对 前 面 的 程序 作 小 的 修改 ， 在 当前 系统 顾客 数 达 到 KK 时 ， 则 新 到 的 
顾客 自动 离开 . 其 他 程序 不 变 . 

下 面 给 出 相应 的 算法 和 程序 .注意 ,对 于 损失 制 与 混合 制 排队 模型 ， 除 关心 
队长 (Ls) 、 平 均等 待 时 间 (Ws) 外 ， 还 要 关心 系统 的 顾客 损失 率 (Piost). 

1. 9 =1 的 情况 (M/M/1/K) 

模拟 算法 亚 

(1) 初始 步 ， 置 上 = Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 To, 置 tj = To， 
tp = co( 此 时 系统 中 无 顾客 ). 置 大 = 0. 

(2) 记录 系统 状态 . 置 天 = 有 二 1 ap) 二 twn( 有 ) = 二. 如 果 ta <7, 则 置 








ws(k) = min(ta,tp) 一 由 
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然后 转 (3); 否则 置 
0, tp = Oo， 
ws(k) = | 


tp—t, tp< 0, 
然后 转 (9). 

(3) 如 果 t4 < tp, 则 置 1=t4, Na = N4+I( 顾 客 到 达 总 数 十 1), n 二 n 十 1( 系 
统 中 顾客 数 +1), 产生 下 一 顾客 到 达 系 统 的 时 间 t4. 

(4) 如 果 n = 1, 产生 服务 台 上 顾客 的 离开 时 间 tp. 

(5) 如 果 n = 天 (当前 顾客 达到 系统 容量 ), 做 如 下 工作 : 

若 t4 < tp( 新 顾客 在 已 被 服务 的 顾客 离开 前 到 达 ), 则 产生 下 一 顾客 到 达 

系统 的 时 间 ta (因为 这 个 新 顾客 需要 离开 ), 直至 t4 > tp 为 止 . 

(6) 如 果 ta > tp, 则 置 t= tp, n= 二 nn 一 1( 系 统 中 顾客 数 一 1). 

(7) 如 果 n = 0( 系 统 中 无 顾客 ), 置 tp = 00; 否则 产生 服务 台 上 顾客 的 离开 
时 间 Tp. 

(8) 转 (2) 

(9) (此 时 ts > 了 T, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 如 果 nn > 
0( 系 统 中 还 有 顾客 ), 并 置 + = tp, n 二 nn 一 1( 系 统 中 顾客 数 一 1). 如 果 n > 0, 产 
生 服 务 台 上 顾客 的 离开 时 间 7p, 然后 转 (2); 否则 转 (10). 

(10) 计算 队长 (Ls) 、 平 均 喜 留 时 间 〈 太 。) 和 系统 的 顾客 损失 率 (Piost). 


Ls i ws(k Wwn( 
Ws = RD ws(k Wwn( 


Fost 二 > ws(k), 
wn(k)>K 
停止 计算 ， 输 出 Ls。 、 Ws 和 Pios. 
R 程序 (程序 名 :queue3 .B) 
queue3<-function(lambda, mu, T, K=1){ 
k<-0; wt<-0; wn<-0; ws<-0 
tp<-0; nA<-0; n<-0; t<-0 
r<-runif(1); tA<--1/lambda*log(r); tD<-Inf 
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repeat{ 
k<-k+1; wt[k]<-t; wn[lk]<-n 
if (tA < T){ 


ws[k]<-min(tA, tD)-t 
if (tA<=tD){ 
t<-tA; n<-n+1; nA<-nA+1 
r<-runif(1); tA<-tA-1/lambda*log(r) 
if (n==1)+{ 
r<-runif (1); tD<-t-1/mu*log(r) 
} 
if (n==K){ 
while (tA < tD){ 
r<-runif(1); tA<-tA-1/lambda*log(r) 


} 
} 
}else{ 
t<-tD; n<-n-1 
if (n==0){ 
tD<-Inf 
jelset 
r<-runif (1); tD<-t-1/mu*log(r) 
} 
} 
}else{ 
ws [kj] <-if(tD==Inf) 0 else tD-t 
if (n>0){ 
t<-tD; n<-n-1 
if (n>0){ 
r<-runif (1); tD<-t-1/mu*log(r) 
} 


}else 
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tp<-1 
} 
if (tp==1) break 
} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Plost=sum(ws [wn>=K] ) /t) 
J 
例 10.17 设 某 条 电话 线 , 平均 每 分 钟 有 0.6 次 呼唤 , 若 每 次 通话 时 间 平 均 为 1.25 
分 钟 ， 试 用 模拟 的 方法 求 该 系统 的 队长 (Ls) 、 平 均 运 留 时 间 (Ws) 和 系统 的 损 
失 兴 (Piost). 
解 : 调用 编 好 的 程序 queue3.R, 输入 相应 的 参数 指标 ,模拟 10000 分 钟 的 排 
队 服 从 系统 的 运行 情况 ， 
> Source("queue3.R") 
> queue3(lambda=0.6, mu=0.8, T=10000) 
Ls Ws Plost 
1 0.4289211 1.259454 0.4289211 
其 理论 值 为 L, = 0.4285714( 次 ), Ws = 1.25( 分 钟 ). Plost = 0.4285714. 
例 10.18 某 理发 店 只 有 了 名 理发 员 ， 因 场所 有 限 ， 店 里 最 多 可 容纳 4 名 顾客 ， 
假设 来 理发 的 顾客 按 Poisson 过 程 到 达 , 平均 到 达 率 为 每 小 时 6 人 ， 理 发 时 间 服 
从 指数 分 布 ， 平 均 12 分 钟 可 为 ! 名 顾客 理发 ， 试 用 模拟 的 方法 求 该 系统 的 队长 
(Ls) 、 平 均 运 留 时 间 (Ws) 和 系统 的 损失 率 (Piost). 
解 : 模拟 1000 小 时 的 排队 服从 系统 的 运行 情况 ， 
> queue3(lambda=6, mu=5, T=1000, K=4) 
Ls Ws Plost 
1 2.364356 0.5412132 0.2718579 
其 理论 值 为 Ls = 2.359493( 人 ), Ws = 0.5451565( 小 时 ). Post = 0.2786498. 


2. 5 > 1 的 情况 (M/M/S/K) 
模拟 算法 IV 
(1) 初始 步 : 置 t = Na = 0, 产生 顾客 到 达 系 统 的 初始 时 间 To, 置 t4 = 
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1(SS(1) 记录 系统 当前 状态 的 顾客 数 ，35(2 ~ S 十 1) 记录 5 个 服务 台 的 工作 状 
态 ，0 为 空闲 ， 1 为 工作 ), 置 大 = 0. 

(2) 如 果 SS(1) = 0, 则 置 妇 = 00, 条 = 二 1; 否则 置 妇 = min(tp), ii 一 
argmin(tp). 





ws(k) = min(ta,t1) 一 二 


然后 转 (4; 否则 置 
0, ti 一 OO 
ws(k) = | 


ti = “ti 60; 


然后 转 (12). 

(4) 如 果 ta4 < 三, 则 置 +=t4, Na = Na 十 1( 顾 客 到 达 总 数 十 1), 产生 下 一 顾 
客 到 达 系统 的 时 间 T4. 置 n= 二 .56(1), $5(1) =n+1( 系 统 中 顾客 数 +1). 

(5) 对 于 1; = 1,2,…,5, 如 果 SS(1 +? = 0( 第 i 个 服务 台 空 闪 ), 则 置 
59(1+? = 1( 将 系统 中 的 顾客 分 配给 第 i 个 服务 台 ， 开 始 服务 ), 产生 第 i 个 服 
务 台 上 顾客 离开 的 时 间 7p(), 然后 中 止 循环 . 

(6) 如 果 595(1) = 天 (当前 顾客 达到 系统 容量 ), 做 如 下 工作 : 

置 五 = min(tp). 若 刀 < 所 (新 顾客 在 已 被 服务 的 顾客 离开 前 到 达 ), 则 产 
生 下 一 顾客 到 达 系 统 的 时 间 t4( 因 为 这 个 新 顾客 需要 离开 ), 直至 t4 密 为 止 . 

) 如 果 t4 过 二 , 则 置 t== 刀 ,n= 55(1), $5(1) = 二 nn 一 1( 系 统 中 顾客 数 一 1). 
8) 如 果 n = 1( 系 统 中 无 顾客 ), 置 $S(1 ++i) = 0, tp(i) = 00,i= 1,2,.…,5. 
(9) 如 果 n < 5, 置 S$S(1 十 行 ) =0,t1p() = oo0( 第 行 个 服务 台 空 闪 ). 

(10) 如 果 n > 5, 产生 顾客 离开 第 和 1 个 服务 台 的 时 间 Tp(i1). 
(11) 转 (2). 


(12) (此 时 ta > 7, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 置 n = 
SS(1). 如 果 n > 0, 则 置 寺 = tp, $5S(1) = n 一 1( 系 统 中 顾客 数 一 1), 然后 转 (8); 
否则 转 (13). 


(7 
( 


600 第 十 章 计算 机 模拟 


(13) 计算 队长 (Zs) 、 平 均 逗 留 时 间 (Ws) 和 顾客 等 待 的 概率 ( Piost). 


1 

J /ee ws(k) : wn(k), 
t k 
1 

WW = Oo— ws(k): wn(k), 
Ni Dl) nh) 
1 

Plost 二 > ws(k), 

wn(k)>K 


停止 计算 ， 输 出 L。、 Ws 和 Pios. 

R 程序 (程序 名 queue4.BR) 

queue4<-function(lambda, mu, T, S=1, K=1){ 
if (K<S) K<-S 
k<-0; wt<-0; wn<-0; ws<-0 
tp<-0; nA<-0; t<-0 
r<-runif (1); tA<--1/lambda*log(r) 
tD<-rep(Inf, S); SS<-rep(0, S+1) 


repeat{ 
t1<-if (SS[1]==0) Inf else min(tD) 
i1<-if(SS[1]==0) 1 else which.min(tD) 
k<-k+1; wt[k]<-t; wn[k]<-SS[1] 
if (tA < T){ 
ws[k]<-min(tA, t1)-t 
if (tA < t1){ 
t<-tA; nA<-nA+1 
r<-runif(1); tA<-t-1/lambda*log(r) 
n<-SS[1]; SS [1] <-n+1 
for (i in 1:S){ 
if (SS[1+i]==0)+ 
SS [1+i]<-=-1 
r<-runif (1); tD[i]<-t-1/mu*log(r) 
break 
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} 
if (SS[1]==K){ 
ti <- min(tD) 
while (tA < t1){ 
r<-runif(1); tA<-tA-1/lambda*log(r) 


} 
}elset{ 
t<-t1i; n<-SS[1]; SS[1]<-n-1 
if (n==1){ 
SS[2:(S+1)]<-0; tD[1:S]<-Inf 
}else if (Cn<=S){ 
SS[1+i1]<-0; tD[i1]<-Inf 


jelset 
r<-runif(1); tD[i1]<-t-1/mu*log(r) 
} 
} 
}else{ 
ws[k]j<- if( t1==Inf) 0 else t1-t 
n<-SS [1] 
if (n>0){ 
t<-t1i; SS[1]<-n-1; 
if (n==1){ 
SS[2:(S+1)]<-0; tD[1:S]<-Inf 
}else if (n<=S){ 
SS[1+i1]<-0; tD[i1]<-Inf 
jelset 
r<-runif(1); tD[i1]<-t-1/mu*log(r) 
} 
}else 


tp<-1 
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} 
if (tp==1) break 
} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Plost=sum(ws [wn>=K] ) /t) 
} 
例 10.19 某 工厂 的 机 器 维修 中 心 有 9 名 维修 工 ， 因 为 场地 限制 ， 中 心 内 最 多 可 
以 容纳 12 台 需 要 维修 的 设备 ， 假 设 待 修 的 设备 按 Poisson 过 程 到 达 ， 平 均 每 天 
4 全 ,维修 设备 服从 指数 分 布 ， 每 台 设 备 平均 需要 2 天 时 间 ， 法 用 模拟 的 方法 求 
该 系统 的 队长 (Ls) 、 平 均 运 留 时 间 (Ws。) 和 系统 的 损失 率 (Post). 
解 : 调用 编 好 的 程序 queue4.R, 输入 相应 的 参数 指标 ， 模 拟 1000 天 的 排队 
服从 系统 的 运行 情况 ， 
> source("queue4.R") 
> queue4(lambda=4, mu=1/2, T=1000，S=9,，K=12) 
Ls Ws Plost 
1 7.736918 2.148876 0.08801383 


其 理论 值 为 Ls = 7.872193( 台 ), W, = 2.153466( 分 钟 ). Post = 0.08610186. 


习题 十 


10.1 用 Monte Carlo 方法 计算 定 积 分 了 | V1 十 x2dx, 分 别 考 虑 随机 投 点 
法 和 平均 值 法 ， 并 计算 在 置信 和 度 为 a = 0.05, 精度 要 求 为 = 0.01 条 件 下 ， 两 种 
方法 所 需 的 试验 次 数 . 

10.2 一 只 兔子 在 O 点 处 ， 它 的 洞穴 在 正 北 20 米 的 BB 点 处 ， 一 只 狼 位 于 兔子 
的 正 东 33 米 的 A 点 处 . Ma 题 : 狼 以 一 倍 于 兔子 的 速度 紧 盯 着 兔子 
追击 ， 画 出 狼 追 兔子 的 追逐 曲线 ， 问 : 当 兔 子 到 达 洞 口 前 是 否 被 狼 通 住 ? 

10.3 一 个 服务 员 的 信贷 膏 ， 顾客 的 平均 到 达 时 间 服 从 均值 为 20 秒 ， 标 准 差 10 
秒 的 正 态 分 布 ， 顾 客 购 买 1 ~ 4 件 商品 的 概率 为 

1 件 05 2 件 0.2， 3 件 ，0.2， 4 件 : 0.1. 
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购买 每 件 商 品 需要 的 时 间 服 从 均值 为 15 秒 ， 标 准 差 为 5 秒 的 正 态 分布， 著 信 贫 
亭 无 顾客 ， 则 新 到 的 顾客 接受 服务 ; 否则 排队 等 待 ， 即 看 成 是 等 待 制 排 队 系 统 . 
试 模拟 售 货 亭 运营 12 个 小 时 后 ， 售 货 亭 的 顾客 队长 (Ls), 顾客 的 平均 运 留 时 间 
(Ws) 和 和 售 货 亭 繁忙 的 概率 . 
10.4 电梯 运输 问题 游客 参观 电视 高 塔 ， 到 达 为 指数 分 布 ， 平 均 的 到 达 间 隔 为 
3 分 钟 ， 在 下 面 排 队 等 候 电 梯 ， 电 梯 容量 8 人 ， 至少 有 3 人 乘 电梯 时 才 开动 ， 电 
梯 运 行 时 间 为 常数 ， 在 塔 顶 ， 游 客 停留 时 间 服 从 均值 为 5 分钟 ， 标 准 差 为 9 分 
钟 的 正 态 分 布 ， 然 后 下 塔 ， 在 下 塔 人 中 ， 有 20 儿 的 人 步行 下 塔 ， 有 80 儿 的 人 乘 
电梯 ， 著 塔 顶 的 游客 全 部 要 下 塔 ， 虽 不 足 9 人 电梯 也 开动 ， 而 且 最 后 1 人 下 塔 
总 是 来 电梯 ， 试 模拟 10 小 时 内 游客 上 、 下 塔 的 平均 等 待 时 间 . 
10.5 按 下 列 条 件 模拟 理发 店 系 统 工作 状态 情况 . 

(1) 理发 店 上 午 10:00 开门 ， 开 门 时 无 顾客 等 待 ， 

(2) 各 顾客 是 否 来 此 店 理发 及 何 时 来 此 店 理发 与 他 人 无 关 ， 且 任意 两 个 顾客 
到 达 的 时 间 间 隔 服 从 均值 为 4 分 钟 的 指数 分 布 . 

(3) 顾客 中 有 60 儿 的 人 仅 剪 发 ， 40%% 的 需要 洗 发 、 剪 发 和 吹 发 . 

(4) 服务 员 甲 为 一 位 顾客 前 发 的 时 间 服 从 6 分 分 钟 的 指数 分 布 ， 洗 发 、 剪 发 
和 吹 发 所 花 时 间 服 从 9 分 钟 的 指数 分 布 ， 服务 员 忆 的 服务 时 时 间 也 服从 指数 分 
布 ， 均 值 分 别 为 5 分 钟 和 7.5 分 钟 . 

(5) 当 顾客 到 达 时 , 如 发 现 已 有 6 位 顾客 正在 排队 等 待 服务 ， 则 放弃 等 待 ( 离 
去 ). 

(6) 每 位 服务 员 不 间断 地 为 4 位 顾客 服务 后 都 要 休息 了 分钟 . 

(7) 理发 店 晚 8:00 后 谢绝 顾客 进入 ， 在 完成 店内 的 顾客 服务 后 关门 ， 
试 模 拟 在 一 天 的 运营 中 ， 来 店 顾客 的 队长 (Ls) 、 平 均 运 留 时 间 (Ws) 和 理发 店 
的 损失 率 (Piost). 
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附录 索引 


在 书 中 ， 共 有 两 类 函数 ， 一 类 是 作者 自 编 的 函数 ， 男 一 类 是 R 软件 提供 的 
函数 . 为 便于 读者 查找 ， 下 面 给 出 函数 的 案 引 . 索引 由 三 部 分 组 成 ， 第 一 部 分 是 
函数 名 ,第 二 部 分 是 函数 的 意义 ,第 三 部 分 是 能 够 解释 该 函数 意义 或 能 够 体现 该 
函 使 用 方法 的 音节 号 . 由 于 有 些 函 数 在 全 书 中 不 断 调 用 ， 因 此 在 其 他 位 置 出 现 的 
章节 号 就 不 再 列 出 了 . 











附录 1 自 编写 的 函数 (程序 ) 


anova.tab 一 计算 方差 分 析 表 ， 7.1.3 节 ， 7.1.6 节 ，7.2.1 节 ， 7.2.2 刷 
area 一 计算 定 积 分 ， 2.9.4 节 


beta.int 一 回归 参数 8 的 区 间 估 计 ， 6.1.4 节 ，6.3.4 节 ，6.3.7 节 
buffon 一 模拟 Buffon 的 投 针 试验 ， 10.1.2 节 


corcoef .test 一 典型 相关 系数 检验 函数 ， 9.3.4 节 


data_outline 一 计算 样本 的 各 种 描述 性 统计 量 ， 3.1.3 闻 
discriminiant .bayes 一 Bayes 判别 函数 (两 类 ), 8.1.2 节 
distinguish.bayes 一 Bayes 判别 函数 (多 类 ), 8.1.2 节 
discriminiant.distance 一 距离 判别 函数 (两 类 ), 8.1.1 闻 
distinguish.distance 一 距离 判别 函数 (多 类 ), 8.1.1 证 
discriminiant .fisher 一 Fisher 判别 函数 (两 类 ), 8.1.3 节 


factor.analy 一 因子 分 析 (综合 ), 9.2.3 节 
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factor.analyl 一 因子 分 析 ( 主 成 分 法 ), 9.2.3 市 
factor.analy2 一 因子 分 析 (主因 子 法 ), 9.2.3 市 
factor.analy3 因子 分 析 ( 极 大 似 然 法 ), 9.2.3 节 
fzero 一 二 分 法 求 非 线性 方程 的 根 ， 2.9.1 证 


interVval_estimatel 一 区 间 佑 计 (单个 正 态 
interval_estimate2 一 区 间 佑 计 (两 个 正 态 
interval_estimate3 一 区间 佑 计 ( 非 正 态 总 
interval_estimate4 一 区 间 佑 计 (单个 正 态 
interval_estimate5 一 区 间 佑 计 (两 个 正 态 
interVval_varl 一 区 间 佑 计 (单个 正 
interval_var2 一 区 间 佑 计 (两 个 正 
interval_var3 一 区 间 佑 计 (单个 正 


态 总 
态 总 
态 总 
interval_var4 一 区 间 估 计 (两 个 正 态 总 


评 玉 证 评 


MC1 一 用 Monte Carlo 方法 (随机 投 点 法 ) 求 7 的 估计 值 ， 
MC1_2 一 用 Monte Carlo 方法 (平均 值 法 ) 求 5 的 估计 值 ， 
MC2 一 用 Monte Carlo 方法 求解 赶 火 车 问题 ， 10.3.2 节 
MC3 一 用 Monte Carlo 方法 求解 核反应 堆 屏 蔽 层 设 计 问 题 ， 
mean.testl 一 单个 正 态 总 体 的 均值 检验 ， 5.2.1 节 

mean .test2 一 两 个 正 态 总 体 的 均值 差 检验 ， 5.2.1 节 
moment_fun 一 作 矩 估计 用 的 解 方程 函数 ， 4.1.1 节 


Newtons 一 Newton 法 求 方 程 组 的 根 ， 2.9.3 节 ， 4.1.1 节 
nP 一 使 谱系 图 更 好 看 的 函数 ， 8.2.2 节 


outline 一 绘 数据 的 轮 廊 图 ， 3.5.1 节 


总 体 均值 、 双 侧 )，4.3.1 节 
总 体 均值 、 双 侧 )，4.3.2 节 
体 均 值 、 双 侧 ), 4.3.3 节 
总 体 均 值 、 单 侧 ), 4.3.4 节 
总 体 均 值 、 单 侧 ), 4.3.4 节 
方差 、 双 侧 ), 4.3.1 节 
方差 比 、 双 侧 ), 4.3.2 节 
方差 、 单 侧 ), 4.3.4 节 
方差 比 、 单 侧 ), 4.3.4 节 


10.1.2 节 
10.1.3 节 


10.3.2 节 
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paramet .int 一 非 线 性 拟 合 参数 的 区 间 估 计 ， 6.7.2 节 
P_value 一 计算 P- 值 ， 5.2.1 节 


queuel 一 模拟 等 待 制 ( 单 服务 台 ) 排队 模型 ， 10.4.3 市 
queue2 一 模拟 等 待 制 (多 服务 台 ) 排队 模型 ， 10.4.3 市 
queue3 一 模拟 混合 制 ( 单 服务 台 ) 排队 模型 ， 10.4.4 市 
queue4 一 模拟 混合 制 (多 服务 台 ) 排队 模型 ， 10.4.4 市 


Reg_Diag 一 回归 诊断 ， 6.5.4 节 
Rosenbrock 一 Rosenbrock 子 数 ，4.1.2 节 
ruben.test 一 通过 样本 的 相关 系数 佑 计 总 体 的 相关 系数 ， 


trace 一 模拟 追逐 问题 ， 10.3.1 节 
twosanm 一 计算 两 样本 的 t 统计 量 ， 2.9.1 市 


unison 一 绘 数据 的 调和 曲线 ， 3.5.3 节 


var.testl 一 方差 检验 (单个 正 态 总 体 ), 5.2.2 市 
var.test2 一 方差 比 检验 (两 个 正 态 总 体 ), 5.2.2 市 
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abline 一 低 水 平 作 图 函数 ， 加 直线 ， 3.3.3 节 ， 6.1.7 节 


3.4.2 节 
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addl 一 逐步 回归 ， 增 加 一 个 变量 ， 6.4.2 节 

all 一 判别 全 部 为 真 ， 2.2.3 节 

anova 一 生成 方差 分 析 表 ， 6.2.2 节 

any 一 判别 之 一 为 真 ， 2.2.3 市 

aov 一 计算 方差 分 析 表 ， 7.1.3 节 ，7.2.1 节 ，7.2.2 节 ，7.3.2 节 ，7.3.3 节 
apply 一 应 用 函数 ， 计 算数 组 的 各 种 运算 ， 2.5.5 节 ， 3.1.1 节 
assign 一 赋值 函数 ， 2.2.1 节 

as.data.frame 一 转换 为 数据 框 ， 2.6.2 节 

as.dendrogram 一 将 系统 聚 类 的 对 象 转换 为 谱系 图 对 象 ， 8.2.2 证 
as.character 一 转换 为 字符 型 变量 ， 2.3.1 节 

as .numeric 一 转换 为 数值 型 变量 ， 2.3.1 节 

as .vector 一 转换 为 向 量 ， 2.5.5 节 

array 一 构造 多 维 数组 ， 2.5.1 节 

attach 一 连接 数据 框 或 列表 函数 ， 2.6.2 节 

attr 一 存 取 对 象 的 属性 ， 2.3.3 节 

attributes 一 返回 对 象 的 属性 ， 2.3.3 节 

axes 一 图 中 的 逻辑 命令 ， 是 否 画 坐标 轴 ， 3.3.2 市 

axis 一 低 水 平 作 图 函数 ， 边 上 加 标记 ， 3.3.3 市 


bartlett .test 一 Bartlett 检验 函数 ， 7.1.5 节 

binom.test 一 二 项 总 体 分 布 的 检验 函数 ， 5.2.3 节 ， 5.3.4 节 ，5.3.7 节 
biplot 一 按 主 成 分 画 数 据 散 点 图 ， 9.1.3 节 

break 一 中 止 语句 ， 2.8.2 节 

boxplot 一 作 箱 线 图 ， 3.2.3 布 


c 一 向 量 建立 函数 ， 2.2.1 市 

cancor 一 典型 相关 分 析 计 算 函 数 ， 9.3.3 市 

cbind 一 矩阵 按 列 合并 ， 2.5.5 节 

chisq.test 一 x 检验 函数 ， 5.3.1 节 ，5.3.2 节 ， 5.3.3 节 
coef 一 提取 回归 系数 ， 6.2.2 节 
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coefficients 一 提取 回归 系数 ， 6.2.2 节 


complex 一 生产 复数 ， 2.2.6 市 


contour 一 绘 三 维 图 形 的 等 值 线 ， 3.3.1 节 


cooks .distance 一 计算 Cook 距离 ， 


6.5.4 节 


coplot 一 绘 样本 的 散 点 图 (不 同 水 平 ), 3.3.1 市 
cor 一 计算 相关 矩阵， 3.4.1 节 ， 3.4.3 节 ， 5.3.6 节 


cor.test 一 相关 性 检验 ， 3.4.2 节 ， 


3.4.3 节 


cov 一 计算 协 方差 阵 ， 3.4.1 节 ， 3.4.3 节 
covratio 一 计算 COVRATIO 值 ， 6.5.4 节 


crossprod 一 矩阵 的 又 积 运 算 ， 2.5.4 节 





cut 一 将 变量 分 成 知 干 个 区 间 ， 5.3.1 





节 


data 一 调用 R 中 的 数据 库 ， 2.7.3 节 


data.frame 一 生成 数据 框 ， 2.6.2 节 


density 一 核 密 度 估计 函数 ， 3.2.2 市 


det 一 计算 甜 阵 的 行列 式 ， 2.5.4 市 


deviance 一 提取 残 差 平方 和 ， 6.2.2 节 


dffits 一 计算 DFFITS 距离 ， 6.5.4 


节 


dim 一 定义 数组 维 数 ， 2.5.1 节 .， 取 和 窍 阵 的 维 数 ， 


dimnames 一 数组 命名 ， 2.5.5 节 
dist 一 生成 聚 类 分 析 中 的 距离 结构 ， 


8.2.1 节 


dnorm 一 概率 密度 函数 ( 正 态 分 布 ), 3.2.1 节 


dotchart 一 绘 数据 的 点 图 ， 3.3.1 节 


dpois 一 概率 密度 函数 (Poisson 分 布 ), 3.2.1 节 


drop1 一 逐步 回归 ， 减少 一 个 变量 ， 


ecdf 一 经 验 分 布 ， 3.2.2 节 

edit 一 编辑 函数 ， 2.6.3 节 

eigen 一 求 和 矩阵 的 特征 值 与 特征 向 量 ， 
exp 一 指数 函数 ， 2.2.1 节 


6.4.2 节 


2.5.4 节 ， 


2.5.5 节 


6.5.5 节 
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factanal 一 因子 分 析 计 算 函 数 ， 9.3.5 节 
factor 一 生成 因子 ， 2.4.1 节 

fisher.test 一 Fisher 检验 函数 ， 5.3.3 节 
fix 一 数据 编辑 ， 2.1.3 节 

friedman.test 一 Friedman 检验 ， 7.1.7 节 
fivenum 一 五 数 总 括 ， 3.2.3 布 

for 一 循环 语句 ， 2.8.3 节 

formula 一 提取 模型 公式 ， 6.2.2 节 


glm 一 计算 广义 线性 模型 的 函数 ， 6.6.1 节 ， 6.6.2 市 


hat 一 计算 帽子 矩阵 ， 6.5.4 节 

hatvalues 一 计算 帽子 矩阵 ， 6.5.4 节 

hclust 一 计算 系统 聚 类 ， 8.2.2 节 

hist 一 绘 样本 直方 图 ， 2.1.2 节 ， 3.2.2 节 ， 3.3.1 节 


I(X*2) 一 X2 6.3.6 节 

if / else 一 分 支 语 句 ， 2.8.1 节 

image 一 绘 三 维 图 形 ， 3.3.1 节 

Inf 一 无限 数 据 ， 2.2.4 节 

influence.measures 一 回归 诊断 总 括 函 数 ， 6.5.4 
is.character 一 判断 是 否 为 字符 型 变量 ， 2.3.1 节 
is.data.frame 一 判断 是 否 为 数据 框 ， 2.7.1 节 
is.finite 一 判断 是 否 为 有 限 数 据 ， 2.2.4 节 
is.infinite 一 判断 是 否 为 无 限 数据 ， 2.2.4 节 
is.list 一 判断 是 否 为 列表 ， 2.7.1 节 

is .na 一 判断 是 否 为 删 失 数据 ， 2.2.4 市 
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is.nan 一 判断 是 否 为 不 确定 数据 ， 2.2.4 节 
is.numeric 一 判断 是 否 为 数值 型 变量 ， 2.3.1 节 


kappa 一 计算 矩阵 条 件数 ， 6.5.5 节 

kmeans 一 KK 一 均值 察 类 也 数 ， 8.2.3 节 

ks.test 一 Kolmogorov-Smirnov 检验 ， 3.2.4 节 ， 5.3.2 节 
kruskal .test 一 Kruskal-Wallis 检验 ， 7.1.6 节 


length 一 计算 向 量 和 维 数 ， 2.2.1 节 ， 2.3.1 节 ， 4.1.1 节 
library 一 将 数据 库 调 入 内 存 ， 2.7.2 节 ， 2.7.3 节 
lines 一 画 直 线 ， 2.2.6 节 ， 3.2.2 节 
一 低 水 平 作 图 函数 ， 加 线 ， 3.3.3 节 
list 一 生成 列表 ， 2.6.1 节 
lm 一 作 线 性 回归 ， 6.1.3 节 ， 6.2.1 节 ， 6.3.3 节 ， 6.3.7 节 ， 6.4.2 节 
1oad 一 载 入 工作 空间 ， 2.1.3 节 
loadings 一 提取 载荷 因子 函数 ， 9.1.3 市 
1og 一 对 数 函 数 ， 2.8.1 
lsfit 一 最 小 二 乘 拟 合 ， 2.5.4 节 


mahalanobis 一 计算 Mahalanobis 距离 ， 8.1.1 节 
matrix 一 构造 矩阵 ， 2.5.1 节 

max 一 计算 样本 的 最 大 值 ， 2.2.1 节 

mcnemar .test 一 McNemar 检验 函数 ， 5.3.3 节 

mean 一 计算 样本 均值 ， 2.1.2 节 ， 3.1.1 节 ， 4.1.1 节 
median 一 计算 样本 中 位 数 ， 2.2.1 节 ， 3.1.1 节 

min 一 计算 样本 的 最 小 值 ， 2.2.1 节 

mode 一 属性 函数 ， 2.3.1 节 
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NA 一 删 失 数据 ，2.2.4 节 

NAN 一 不 确定 数据 ， 2.2.4 节 

ncol 一 取 和 矩阵 的 列 数 ， 2.5.5 节 

next 一 空 语句 ， 2.8.2 节 

nlm 一 求 多 元 函数 极 小 点 ， 4.1.2 节 ， 6.7.2 节 
nls 一 计算 非 线性 拟 合 函数 ， 6.7.2 市 
numeric 一 产生 数值 型 变量 ， 2.2.7 节 

nrow 一 取 和 矩阵 的 行 数 ， 2.5.5 节 


optimise 一 求 一 元 函数 极 小 点 ， 4.1.2 市 

optimize 一 求 一 元 函数 极 小 点 ， 4.1.2 市 

order 一 计算 顺序 统计 量 的 下 标 ， 2.2.1 节 ， 3.1.1 市 
outer 一 又 积 运算 ， 2.5.4 节 


p.adjust 一 p- 值 调 整 函 数 ，7.1.4 节 

pairs 一 绘 样本 散布 图 ， 3.3.1 节 

pairwise.t.test 一 均值 的 多 重 比 较 ， 7.1.4 节 

par 一 图 形 参数 设置 函数 ， 6.5.4 市 

paste 一 连接 字符 串 ， 2.2.5 节 

persp 一 绘 三 维 图 形 的 表面 曲线 ， 3.3.1 节 

plclust 一 绘 出 谱系 图 ， 8.2.2 

plot 一 绘 样本 的 散 点 图 ， 2.1.2 节 ， 3.3.1 市 
一 绘 出 经 验 分 布 图 ， 3.2.2 节 ， 6.3.7 节 
一 绘 曲 线 、 样 本 直方 图 、 箱 线 图 、 散 布 图 等 ， 3.3.1 节 ， 7.1.3 节 
一 绘 回归 诊断 图 ， 6.2.2 节 ， 6.5.3 节 
一 绘 出 谱系 图 ， 8.2.2 节 

pnorm 一 分 布 函数 ( 正 态 分 布 ), 3.2.1 节 

points 一 低 水 平 作 图 函数 ， 加 点 ， 3.3.3 节 

poly 一 计算 正 交 多 项 式 ， 6.7.1 节 
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ppois 一 分布 函数 (Poisson 分 布 ), 3.2.1 节 
prcomp 一 计算 主 成 分 分 析 ， 9.2.3 节 
princomp 一 计算 主 成 分 分 析 ， 9.2.3 节 
prod 一 连 乘积 函数 ， 2.2.1 节 


predict 一 模型 预测 及 区 间 估 计 ， 6.1.5 节 ， 6.2.2 节 ， 


一 预测 主 成 分 值 ， 9.1.3 市 
print 一 显示 结果 ， 6.2.2 市 


q(0) 一 退出 及 系统 ，2.1.3 节 

qnorm 一 计算 下 分 位 点 ( 正 态 分 布 ), 3.2.1 节 
qpois 一 计算 下 分 位 点 (Poisson 分 布 ), 3.2.1 节 
qqline 一 绘 样 QQ 散 点 图 对 应 的 直线 ， 3.2.2 市 ， 
qqnorm 一 绘 样 QQ 散 点 图 ， 3.2.2 节 ， 3.3.1 市 
qqplot 一 绘 样 QQ 散 点 图 ， 3.2.2 节 ， 3.3.1 市 
gr 一 QR 分 解 ， 2.5.4 节 

qr.coef 一 计算 最 小 二 乘 的 系数 ， 2.5.4 市 
qr.fitted 一 最 小 二 乘 的 拟 合 值 ， 2.5.4 节 
qr.resid 一 最 小 二 乘 的 拟 合 残 差 值 ， 2.5.4 节 
quantile 一 计算 样本 百 分 位 数 ， 3.1.1 市 


range 一 计算 样本 的 区 间 ， 2.2.1 贡 

rank 一 计算 秩 统计 量 ， 5.3.5 节 

rcauchy 一 产生 Cauchy 分 布 的 随机 数 ， 4.1.2 节 
rbind 一 矩阵 按 行 合 并 ， 2.5.5 节 

rbinom 一 产生 二 项 分 布 的 随机 数 ， 4.1.1 节 
read.csv 一 读 Excel 表 的 CSV 文件 ， 2.7.2 节 
read.delim 一 读 Excel 表 的 纯 文 本 文件 ， 2.7.2 节 
read.dta 一 读 Stata 文件 ， 2.7.2 节 

read.S 一 读 S-PLUS 文件 ，2.7.2 节 

read.spss 一 读 SPSS 文件 ， 2.7.2 营 


3.3.1 节 


6.3.5 节 
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read.table 一 读数 据 文件 ， 2.1.2 节 ， 2.7.1 节 
read.xport 一 读 SAS 文件 ， 2.7.2 市 
rect.hclust 一 确定 聚 类 本 数 ， 8.2.2 节 

resid 一 计算 回归 残 差 ， 6.5.2 节 

residuals 一 计算 回归 残 差 ， 6.1.7 节 ， 6.2.2 节 ， 6.5.2 闻 
rep 一 产生 重复 的 数列 ， 2.2.2 节 

repeat 一 循环 语句 ， 2.8.3 节 

rnorm 一 生成 随机 数 ( 正 态 分 布 ), 3.2.1 节 

rpois 一 生成 随机 数 (Poisson 分 布 ), 3.2.1 节 
rstandard 标准 化 (内 学 生化 ) 残 差 ， 6.5.2 节 
rstudent 一 (外 ) 学 生化 残 差 ， 6.5.2 节 








save.image 一 保存 工作 空间 ， 2.1.3 节 

scale 一 作 数据 中 心 化 或 标准 化 的 函数 ， 8.2.1 市 

scan 一 读 纯 文本 文件 ， 2.7.1 市 

screeplot 一 画 出 主 成 分 的 碎 石 图 函数 ， 9.1.3 节 

sd 一 计算 样本 标准 差 ， 2.1.2 节 ， 3.1.2 节 

sed 一 产生 等 间隔 数列 ， 2.2.2 市 

shapiro.test 一 正 态 性 W 检验 ， 3.2.4 节 ， 6.5.2 节 ， 7.1.5 节 

solve 一 解 方程 组 、 矩 阵 求 送 ， 2.5.4 节 

source _ 执行 自 编 的 函数 (程序 ) 2.1.3 节 

sort 一 计算 顺序 统计 量 ， 2.2.1 节 ， 3.1.1 节 

sort .1ist 一 计算 顺序 统计 量 的 下 标 ， 2.2.1 节 

stars 一 星 图 ， 3.5.2 节 

stem 一 作 茎 叶 图 ， 3.2.3 节 

step 一 作 逐 步 回归 ， 6.2.2 节 ， 6.4.2 市 

sqrt 一 开 方 函数 ， 2.2.1 节 

sum 一 求生 数 ，2.2.1 节 ，3.1.1 节 

summary 一 提取 模型 信息 ， 6.1.3 节 ， 6.2.2 节 ， 6.3.3 节 ， 6.4.2 节 
一 提取 主 成 分 信息 ， 9.2.3 市 

svd 一 矩阵 的 奇异 值 分 解 ， 2.5.4 市 
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sweep 一 对 数组 或 矩阵 进行 某 种 运算 ， 8.2.1 节 
switch 一 多 分 支 语 句 ， 2.8.1 节 


t 一 矩阵 的 转 置 ， 2.5.4 节 

t.test 一 t 检验 函数 ，4.3.1 节 ，4.3.2 节 ，4.3.4 节 ，5.2.1 节 
table 一 因子 合并 也 数 ，5.3.1 节 

tapply 一 应 用 函数 ， 在 因子 计算 其 他 值 ， 2.4.2 节 

text 一 低 水 平 作 图 函数 ， 加 文字 ， 3.3.3 节 

title 一 低 水 平 作 图 函数 ， 加 标记 ， 3.3.3 闻 

type 一 图 中 的 显示 命令 ， 表 示 绘 出 各 种 形式 的 图 形 ， 3.3.2 节 


uniroot 一 求 非 线性 方程 的 根 ， 2.9.1 节 ，4.1.2 节 
updata 一 模型 修正 ， 6.3.6 节 ， 6.3.7 节 


var 一 计算 样本 方差 ， 2.2.1 节 ，3.1.2 节 ， 4.1.1 节 
var.test 一 方差 比 检验 函数 ， 4.3.2 节 ， 5.2.2 刷 
varimax 一 计算 最 大 方差 因子 载 符 ， 9.2.4 节 


weighted.mean 一 计算 加 权 样 本 均值 ， 3.1.1 节 

which.max 一 给 出 最 大 值 的 下 标 ， 2.2.1 节 

which.min 一 给 出 最 小 值 的 下 标 ， 2.2.1 市 

whicoxon 一 Wilcoxon 秩 检 验 函 数 ， 5.3.7 节 

while 一 循环 语句 ， 2.8.3 节 

Write 一 写 纯 文本 文件 ， 2.7.4 节 

write.table 一 将 数据 框 或 列表 写成 纯 文 本 文件 ， 2.7.4 节 
write.csv 一 将 数据 框 或 列表 写成 Excel 的 CSV 文件 ， 2.7.4 节 
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%% 一 除法 求 余 数 , 2.2.1 市 
%*% 一 点 积 运 算 , 2.5.4 节 

%/% 一 整除 运算 , 2.2.1 节 

%o% 一 义 积 运 算 , 2.5.4 节 

: 一 产生 等 差 数 列 ， 2.2.2 节 
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